अध्याय 10 प्रोटीन इन्फॉर्मेटिक्स और केमिनफॉर्मेटिक्स

10.1 प्रोटीन सूचना

10.1.1 परिचय

किसी भी प्रोटीन के बारे में सूचना संकलन करने की प्रक्रिया, जिसमें सूचना प्रौद्योगिकी की तकनीकों का उपयोग किया जाता है, को प्रोटीन इन्फॉर्मेटिक्स कहते हैं। प्रोटीन इन्फॉर्मेटिक्स ने काल्पनिक प्रोटीनों की कार्यात्मक स्थान, जैविक और रासायनिक कार्य की पहचान करने में अत्यधिक सहायता की है। इसके अतिरिक्त, इसने पारंपरिक तरीकों के माध्यम से जैविक कार्य समझने में असमर्थ काल्पनिक प्रोटीनों की तृतीयानुक्रमिक संरचनाओं की पहचान करने में सहायता की है। प्रोटियोम पैमाने पर अलग-अलग डेटाबेस और अमीनो अम्ल अनुक्रमों, तृतीयानुक्रमिक संरचनाओं और पथों के विभिन्न वर्णक्रम भी प्रोटीन इन्फॉर्मेटिक्स के विकास में सहायक रहे हैं।

10.1.2 प्रोटीन डेटा प्रकार

सूचना निकालने की गणना प्रक्रिया के लिए प्रोटीन के कच्चे डेटा की आवश्यकता होती है। ये प्रोटीन डेटा निम्नलिखित प्रकारों में हो सकता है:

(i) गरमी देने से दूषित प्रोटीन एग्रीगेट की सूक्ष्म छवि
(ii) घटने में प्रोटीन
(iii) मैट्रिक्स सहायता लैसर डिसोर्प्शन/आयोनीसेशन (MALDI) के आउटपुट के रूप में प्रोटीन अनुक्रम
(iv) संयुक्त प्रोटीन अनुक्रम
(v) प्रोटीन डेटा बैंक (PDB) प्रारूप में प्रोटीन क्रिस्टल संरचना
(vi) प्रोटीन-प्रोटीन, प्रोटीन-लिगैंड या प्रोटीन-न्यूक्लिएट इंटरैक्शन फ़ाइल
(vii) न्यूक्लियर मैग्नेटिक रेजोनेंस (NMR) डेटा, मास स्पेक्ट्रोमीट्री (MS) डेटा
(viii) जीनोम अनुक्रमों से सीधे प्राप्त प्रोटीन अनुक्रम, जिनमें अस्तित्व की ज्ञात सबूत नहीं है (काल्पनिक प्रोटीन)

उपरोक्त प्रकारों के प्रोटीन डेटा का उपयोग उपयोगी सूचना प्राप्त करने के लिए किया जाता है, जैसे:

(i) गरमी देने से दूषित प्रोटीन एग्रीगेट की सूक्ष्म छवि की बहुखण्डकता प्रोटीन-मार्कर डिज़ाइन करने के लिए उपयोग की जाती है।
(ii) घटने में प्रोटीन के डेटा भौतिक-रासायनिक गुणों और गतिशीलता सूचनाओं के विश्लेषण के लिए उपयोगी हैं।
(iii) MALDI से प्राप्त प्रोटीन के छोटे-छोटे खंडों का उपयोग पूर्ण लंबाई के अनुक्रम की पहचान करने के लिए किया जाता है।
(iv) प्रोटीन क्रिस्टल संरचनाएँ विकारों और इंटरैक्शन्स का अध्ययन करने के लिए उपयोग की जाती हैं।
(v) PDB, NMR और MS डेटा गैर-क्रिस्टलाइज़ प्रोटीन (सीधे अनुक्रम से) की संरचना की भविष्यवाणी के लिए भी उपयोग किया जाता है।
(vi) जिन प्रोटीनों का अस्तित्व ज्ञात नहीं है (जिन्हें काल्पनिक प्रोटीन कहते हैं), उन्हें जीनोम अनुक्रमों से पहचाना जा सकता है।
(vii) प्रोटीन नेटवर्क मैपिंग विभिन्न रोगों के उपचार के संभावित लक्ष्य के बारे में सूचना प्रदान करता है।

प्रोटीन इन्फॉर्मेटिक्स विश्लेषण करने के लिए निम्नलिखित दो मौलिक सुविधाएँ आवश्यक हैं:

(i) अलग-अलग डेटाबेसों, जैसे NCBI, PDB, CHEMBL, BIOMODELS आदि से कच्चे डेटा की उपलब्धता।
(ii) विश्लेषण के लिए उपयोग किए जाने वाले सूचना प्रौद्योगिकी के उपकरण और तकनीकें। कुछ प्रसिद्ध तकनीकें निम्नलिखित हैं: (ए) झील तकनीकों द्वारा छवि विश्लेषण, (बी) अनुक्रम समानता और होमोलॉजी गणना, (सी) संरचना अनुकूलन तकनीकें, (डी) सांख्यिकीय और मशीन सीखने की तकनीकों, जैसे कि कृत्रिम तंत्रिका नेटवर्क (ANN), सपोर्ट वेक्टर मशीन (SVM) और छिपा हुआ मार्कोव मॉडल (HMM) द्वारा डेटा विश्लेषण। (ई) नेटवर्क मैपिंग तकनीक, और (उ) सिस्टम्स बायोलॉजी मार्क-अप लैंग्वेज (SBML)।

10.1.3 प्रोटीन संरचनाओं की कम्प्यूटेशनल भविष्यवाणी

जैविक सूचना प्रौद्योगिकी के उपकरणों का उपयोग करके प्रोटीन संरचना की भविष्यवाणी करने का उद्देश्य यह खोजना है कि अमीनो अम्ल अनुक्रम कैसे प्रोटीन की संरचना निर्धारित करते हैं और इन प्रोटीनों कैसे सब्सट्रेट्स और अन्य अणुओं से जुड़कर अपने कार्य करते हैं। जैविक सूचना प्रौद्योगिकी के उपकरणों का उपयोग करके एक प्रोटीन (जिसमें काल्पनिक प्रोटीन भी शामिल हैं) की संरचना की भविष्यवाणी करना संभव है, भले ही केवल जीन अनुक्रम ज्ञात हो, अर्थात् प्रोटीन अनुक्रम के अभाव में भी। विभिन्न स्रोतों से प्रोटीन की तृतीयानुक्रमिक और भौतिक-रासायनिक गुणों की भविष्यवाणी करने के लिए कई कम्प्यूटेशनल उपकरण उपलब्ध हैं। कम्प्यूटेशनल तरीकों के मुख्य फायदे समय की अवधि, उच्च लागत और उच्च प्रवाह स्क्रीनिंग की संभावना हैं।

10.1.3.1 प्राथमिक संरचना की भविष्यवाणी

प्रोटीन की प्राथमिक संरचना की भविष्यवाणी भौतिक-रासायनिक वर्णन, जैसे कि आइसोइलेक्ट्रिक पॉइंट, एक्स्टिंक्शन को-एफ़िसिएंट, अस्थिरता सूचकांक, एलिप्टिक इंडेक्स और ग्रैंड एवरेज हाइड्रोपैथी के माध्यम से की जाती है। इन सभी गुणों की गणना ExPASy प्रोटीयोमिक्स सर्वर के ProtParam उपकरण की सहायता से की जा सकती है। प्रोटीन के कुछ भौतिक-रासायनिक गुणों का संक्षिप्त वर्णन निम्नलिखित खंड में किया गया है।

आइसोइलेक्ट्रिक पॉइंट - आइसोइलेक्ट्रिक पॉइंट (pI) वह $\mathrm{pH}$ है जिस पर प्रोटीन की सतह पर आर्द्रता होती है लेकिन प्रोटीन का कुल आर्द्रता शून्य होता है। pI पर प्रोटीन स्थिर और घनी होती है। यदि गणना किया गया $\mathrm{pI}$ मान $7(\mathrm{pI}<7)$ से कम है, तो इसका मतलब है कि प्रोटीन अम्लीय माना जाता है।

pI 7 से अधिक (pI > 7) का दर्शाता है कि प्रोटीन कार्बनिक गुण रखता है। गणना किया गया आइसोइलेक्ट्रिक पॉइंट (pI) आइसोइलेक्ट्रिक फोक्सिंग पद्धति द्वारा शुद्धिकरण के लिए बफर प्रणाली विकसित करने के लिए उपयोगी होगा।

एलिप्टिक इंडेक्स - एलिप्टिक इंडेक्स (AI), जिसे प्रोटीन के एलिप्टिक साइड श्रेणियों (A, V, I और L) द्वारा घिरा गज का निरपेक्ष आकार के रूप में परिभाषित किया जाता है, ग्लूबुलर प्रोटीन की उष्णता स्थिरता में वृद्धि के लिए सकारात्मक कारक के रूप में माना जाता है। प्रोटीन अनुक्रमों का अत्यधिक उच्च एलिप्टिक इंडेक्स इंगित करता है कि प्रोटीन विशाल तापमान सीमा के लिए स्थिर हो सकता है।

अस्थिरता सूचकांक - अस्थिरता सूचकांक प्रोटीन की टेस्ट ट्यूब में स्थिरता का एक अनुमान प्रदान करता है। कुछ डायपेप्टाइड्स हैं, जिनके उत्पादन अस्थिर प्रोटीनों में स्थिर प्रोटीनों की तुलना में महत्वपूर्ण रूप से अलग होता है। इस पद्धति द्वारा अस्थिरता के लिए एक वजन मान निर्धारित किया जाता है। इन वजन मानों का उपयोग करके अस्थिरता सूचकांक की गणना की जा सकती है। अस्थिरता सूचकांक 40 से कम वाले प्रोटीन को स्थिर के रूप में भविष्यवाणी की जाती है, 40 से ऊपर का मान इंगित करता है कि प्रोटीन अस्थिर हो सकता है।

ग्रैंड एवरेज हाइड्रोपैथी (GRAVY) मान - पेप्टाइड या प्रोटीन का ग्रैंड एवरेज हाइड्रोपैथी (GRAVY) मान उसके सभी अमीनो अम्लों के हाइड्रोपैथी मानों के योग को अनुक्रम में प्रति प्रतियों की संख्या से विभाजित करके गणना किया जाता है। GRAVY मान की निम्न सीमा जल के साथ बेहतर इंटरैक्शन की संभावना दर्शाती है।

10.1.3.2 द्वितीयक संरचना की भविष्यवाणी

प्रोटीन की द्वितीयक संरचना का गहराई से अध्ययन किया गया है, क्योंकि यह अज्ञात संरचनाओं वाले प्रोटीन के कार्यों को उजागर करने में बहुत मदद करता है। इसके अतिरिक्त, प्रोटीन द्वितीयक संरचना की भविष्यवाणी प्रोटीन तीन-आयामी संरचना की भविष्यवाणी की एक पदचारी है के बारे में भी दिखाया गया है। APSSP, CFSSP, SOPMA और GOR सामान्य प्रोटीन द्वितीयक संरचना भविष्यवाणी उपकरण हैं।

10.1.3.3 तीन-आयामी (3D) संरचना की भविष्यवाणी

प्रोटीन 3D संरचना की भविष्यवाणी के लिए निम्नलिखित तीन कम्प्यूटेशनल तरीके सामान्यतः उपयोग किए जाते हैं।

होमोलॉजी मॉडलिंग - होमोलॉजी मॉडलिंग के लिए, अज्ञात संरचना वाले प्रोटीन के अमीनो अम्ल अनुक्रम को ज्ञात संरचनाओं वाले प्रोटीनों के अनुक्रमों के खिलाफ संरेखित किया जाता है। उच्च स्तर की होमोलॉजी (प्रोटीनों के बीच और अंतर में बहुत समान अनुक्रम) का उपयोग अज्ञात संरचना वाले प्रोटीन की वैश्विक संरचना की पहचान करने और उसे किसी विशेष फोल्ड श्रेणी में रखने के लिए किया जा सकता है। निम्न स्तर की होमोलॉजी भी स्थानिक संरचनाओं की पहचान करने के लिए उपयोग की जा सकती है, जैसे कि द्वितीयक संरचना की भविष्यवाणी करने के लिए चोफ-फ़ैशन पद्धति। होमोलॉजी मॉडलिंग तरीकों का एक फायदा यह है कि भौतिक निर्धारकों की जानकारी पर निर्भरता नहीं होती। MODELLER और SWISS-MODEL होमोलॉजी मॉडलिंग के लिए सामान्यतः उपयोग किए जाने वाले उपकरण हैं।

फोल्ड भविष्यवाणी - फोल्ड पहचान तरीके एक पूरक दृष्टिकोण अपनाते हैं जहाँ संरचनाएँ संरेखित की जाती हैं। ‘थ्रेडिंग’ नामक तरीके से, अज्ञात संरचना वाले प्रोटीन के अनुक्रम को ज्�