अध्याय 09 बायोइनफॉरमैटिक्स का परिचय

9.1 जैविक प्रणालियों और प्रक्रियाओं को समझने के लिए बुनियादी गणितीय और सांख्यिकीय अवधारणाओं की उपयोगिता

इस अध्याय का उद्देश्य आपको यह बताना है कि गणित और सांख्यिकी की बुनियादी अवधारणाओं की समझ एक जीवविज्ञानी के लिए क्यों महत्वपूर्ण है।

किसी भी जैविक प्रयोग का परिणाम डेटा होता है। पहले, जीवविज्ञानी परिष्कृत सॉफ्टवेयर, कम्प्यूटेशनल उपकरणों और सांख्यिकीय परीक्षणों की सहायता के बिना डेटा उत्पन्न और विश्लेषण करते थे। हालाँकि, अब ऐसा नहीं है। हाई-थ्रूपुट डीएनए सीक्वेंसर, शक्तिशाली माइक्रोस्कोप और अन्य इमेजिंग सिस्टम, तथा बड़ी मात्रा में डेटा उत्पन्न करने में सक्षम विश्लेषणात्मक उपकरणों जैसे उपकरणों के आगमन के साथ, जीवविज्ञानी अब अपनी नोटबुक और एक्सेल शीट का उपयोग करके डेटा से निपट नहीं सकते। इसके बजाय, उन्हें डेटा को संभालने के लिए कम्प्यूटेशनल और सांख्यिकीय उपकरणों की आवश्यकता होती है। बड़ी मात्रा में डेटा की व्याख्या करने और जैविक अर्थ निकालने के लिए अक्सर मात्रात्मक विश्लेषण की आवश्यकता होती है। ऐसे विश्लेषण करने के लिए कम्प्यूटेशनल और सांख्यिकीय अवधारणाओं, उदाहरण के लिए; मशीन लर्निंग तकनीक, रिग्रेशन, वेरिएंस और सहसंबंध आदि का अच्छा कार्यकारी ज्ञान होना आवश्यक है। गणितीय और सांख्यिकीय अवधारणाएं केवल जीवविज्ञानियों को उनके डेटा की व्याख्या करने में सहायता कर सकती हैं और सही प्रश्न पूछने और जैविक कुशाग्रता का स्थान नहीं ले सकतीं। जीव विज्ञान में उपयोग किए जाने वाले कुछ सामान्य सांख्यिकीय शब्दों के नाम बॉक्स 1 में दिए गए हैं।

बॉक्स 1
बॉक्स 1: जीव विज्ञान में सामान्यतः उपयोग किए जाने वाले सांख्यिकीय शब्दों की शब्दावली
शून्य परिकल्पना- एक कथन जो बताता है कि दो मापी गई घटनाओं के बीच कोई संबंध नहीं है।
सांख्यिकीय महत्व- किसी परिणाम का सांख्यिकीय महत्व तब होता है जब उसके घटित होने की संभावना बहुत कम हो।
p-मान- किसी अध्ययन प्रश्न की शून्य परिकल्पना सत्य होने पर प्रेक्षित परिणाम प्राप्त करने की प्रायिकता।
t-परीक्षण- सांख्यिकीय परीक्षा के उपयोग के माध्यम से दो जनसंख्या माध्यों का विश्लेषण।
बहुचर विश्लेषण: एक से अधिक चर वाले डेटा के विश्लेषण के लिए उपयोग की जाने वाली तकनीकों का एक समूह।
रिग्रेशन विश्लेषण- एक आश्रित और एक स्वतंत्र चर के बीच संबंध की जांच करने के लिए एक तकनीक।
बहु-परीक्षण संशोधन- एक सांख्यिकीय परीक्षण जो समग्र त्रुटि दर को उपयोगकर्ता-निर्दिष्ट P-मान कटऑफ से कम या बराबर रखने के लिए कई परीक्षणों के लिए संशोधन करता है।
विचरण विश्लेषण या ANOVA- सांख्यिकीय मॉडलों का एक संग्रह जिसका उपयोग किसी नमूने में समूह माध्यों के बीच अंतर का विश्लेषण करने के लिए किया जाता है।

आइए विशिष्ट उदाहरणों के साथ जांच करें जहां कम्प्यूटिंग और सांख्यिकी दोनों का ज्ञान जैविक घटनाओं को बेहतर ढंग से समझने में मदद कर सकता है। उदाहरण के लिए, हम दस रोगियों में रक्तचाप और हृदय गति के बीच संबंध, यदि कोई हो, को समझना चाहते हैं (तालिका 9.1)। नीचे दी गई तालिका में दिए गए अनुसार, दो चरों के बीच संबंध (सहसंबंध) को सटीक रूप से निर्धारित करने के लिए एक साधारण दृश्य अनुमान (चित्र 9.1) पर्याप्त नहीं है। इसके लिए, एक रिग्रेशन रेखा खींचने की आवश्यकता होती है। सहसंबंध और रिग्रेशन अलग-अलग हैं, फिर भी संबंधित हैं। सहसंबंण यह मात्रात्मक रूप से बताता है कि चर कैसे जुड़े हैं, लेकिन रिग्रेशन दो या दो से अधिक चरों के बीच एक सांख्यिकीय संबंध को परिभाषित करता है जहां एक चर में परिवर्तन दूसरे चर में परिवर्तन से जुड़ा होता है। इसलिए, उपरोक्त उदाहरण में एक साधारण रिग्रेशन परीक्षण हमें बताएगा कि क्या हृदय गति और रक्तचाप के बीच कोई सीधा संबंध है। एक रैखिक रिग्रेशन विश्लेषण का आउटपुट $\mathrm{R}^{2}$-मान होता है, जो यह दर्शाने के लिए एक सांख्यिकीय माप है कि डेटा फिट की गई रिग्रेशन रेखा के कितना करीब है। $R^{2}$ मान 0 (चरों के बीच कोई सहसंबंध नहीं) और 1 (चरों के बीच पूर्ण सहसंबंध) के बीच होता है। जैसा कि चित्र 9.1 में दिखाया गया है, $R^{2}$ मान बताता है कि दोनों चरों के बीच एक अच्छा सहसंबंध है। इसलिए, इस मामले में शून्य परिकल्पना को अस्वीकार कर दिया जाता है।

तालिका 9.1: दस रोगियों में दर्ज हृदय गति और रक्तचाप

रोगी	हृदय गति	रक्तचाप (सिस्टोलिक)
1	112	189
2	83	140
3	92	153
4	121	192
5	85	147
6	111	178
7	94	135
8	88	143
9	102	177
10	111	189

चित्र 9.1: एक साधारण रैखिक रिग्रेशन रेखा के साथ दो चरों के बीच सहसंबंध

जीव विज्ञान के कई क्षेत्रों में संभाव्यता की बुनियादी समझ की आवश्यकता होती है। कोशिकीय तंत्र जैसी जटिल प्रणालीगत घटनाओं का गणितीय मॉडलिंग व्यक्ति को प्रणाली और उसकी गतिकी के महत्वपूर्ण मापदंडों को समझने की अनुमति देता है। फाइलोजेनेटिक पुनर्निर्माण, पूर्वज अनुक्रमों का निर्धारण और मौजूदा अनुक्रमों के समूह से विकास की दरों का मॉडलिंग करने के लिए संभाव्यता का ज्ञान आवश्यक है। जीवविज्ञानियों को प्रयोग करने से पहले सांख्यिकीय मुद्दों को ध्यान में रखना चाहिए। उदाहरण के लिए, प्रयोग के लिए पर्याप्त संख्या में नमूनों और दोहरावों, दोनों जैविक और तकनीकी, का चयन करने के लिए सांख्यिकी का ज्ञान आवश्यक है। परिणामों में विश्वास स्थापित करने और यह जानने के लिए कि वे वास्तविक हैं या नकली, एक प्रयोग को कई बार स्वतंत्र रूप से दोहराया जाना चाहिए। सांख्यिकीय यादृच्छिकता और बड़ी संख्याओं के नियम में आवश्यक पृष्ठभूमि व्यक्ति को इस समस्या से निपटने के लिए सक्षम बनाती है। बड़ी संख्या से यादृच्छिक नमूना लेने से पक्षपाती परिणाम प्राप्त होने की संभावना कम हो जाती है। जीवविज्ञानी को यह सुनिश्चित करने की आवश्यकता है कि परिणाम सांख्यिकीय रूप से महत्वपूर्ण हैं। इस चरण के लिए विभिन्न परीक्षणों और सांख्यिकीय महत्व के मापों से परिचित होने और प्रश्न में समस्या के लिए सही परीक्षण (परीक्षणों) को लागू करने की आवश्यकता होती है। समस्या के आधार पर, जीवविज्ञानी को बहु-परीक्षण के लिए महत्व के माप को सही और समायोजित करना पड़ सकता है।

उच्च स्तर की कम्प्यूटिंग, विश्लेषण और विज़ुअलाइज़ेशन के लिए, एक जीवविज्ञानी अंतर्निहित ढांचे का उपयोग कर सकता है। जैसे MATLAB (वाणिज्यिक) और R (ओपन सोर्स), आदि।

जीवविज्ञानियों के लिए, नियोजित सांख्यिकीय विश्लेषण का चुनाव सही उत्तर निर्धारित करने की कुंजी है। कमजोर या गलत सांख्यिकीय मानक गलत धारणाओं की ओर ले जाते हैं और इसलिए अप्रतिलिपि प्रस्तुत करने योग्य परिणामों की ओर ले जा सकते हैं। उदाहरण के लिए, सांख्यिकी में आमतौर पर उपयोग की जाने वाली अवधारणा $\mathrm{P}$ मान है जो किसी परिकल्पना के समर्थन के प्रमाण के रूप में है। $\mathrm{P}$ मान जितना छोटा होगा, परीक्षण के परिणाम के महत्वपूर्ण होने की संभावना उतनी ही अधिक होगी। 0.05 (95% महत्व) या उससे कम का P मान कटऑफ महत्वपूर्ण माना जाता है। हालाँकि, 0.05 की सीमा ने वैज्ञानिक साहित्य में बहुत अधिक झूठे सकारात्मक परिणामों को प्रकट किया है। इसलिए, $P$ मान कटऑफ 0.05 की पुनः जांच करने की आवश्यकता है। छोटे नमूना आकार के साथ, एक गुमराह करने वाले औसत और मानक विचलन के साथ विज़ुअलाइज़ेशन को विकृत करने के बजाय सभी स्वतंत्र डेटा बिंदुओं को दिखाना बेहतर है। नकारात्मक परिणाम का सामना करने पर जिस सांख्यिकीय शक्ति पर विचार करना शुरू करते हैं, उस पर सकारात्मक परिणामों के मामले में भी विचार किया जाना चाहिए। इसलिए, गलत प्रकार के डेटा के लिए कुछ स्थापित सांख्यिकीय मॉडलों और वितरणों की धारणाएं एक सामान्य दुरुपयोग है। उदाहरण के लिए, गैर-रैखिक गतिशील प्रणालियों के लिए गाऊसी वितरण की धारणा, जिसके परिणामस्वरूप झूठे सकारात्मक परिणाम आते हैं। अवास्तविक पैरामीटर भार के साथ निर्मित असंतुलित गणितीय मॉडल एक और सामान्य दुरुपयोग है और जिसका पता लगाना मुश्किल है। इन चेतावनियों के उचित ध्यान के साथ, जीव विज्ञान में गणित और सांख्यिकी का अनुप्रयोग शोध के नए क्षेत्रों के उद्घाटन की ओर ले जा सकता है जो अधिक जटिल जैविक समस्याओं से निपटने के लिए अंतःविषय प्रकृति के हैं।

9.2 परिचय

बायोइनफॉरमैटिक्स एक अंतःविषय क्षेत्र है जो जैविक समस्याओं को हल करने के लिए जैविक सूचना के विश्लेषण में कम्प्यूटेशनल, गणितीय, सांख्यिकीय और कभी-कभी, इंजीनियरिंग दृष्टिकोणों का उपयोग करता है (चित्र 9.2)। इस प्रकार, बायोइनफॉरमैटिक्स कंप्यूटर आधारित सॉफ्टवेयर और उपकरणों का उपयोग करके जैविक डेटा के भंडारण, पुनर्प्राप्ति, विश्लेषण और व्याख्या से संबंधित है। यद्यपि अंतर हैं, इसका उपयोग प्रमुख अनुशासनात्मक घटकों के आधार पर ‘कम्प्यूटेशनल बायोलॉजी,’ ‘मैथमेटिकल बायोलॉजी,’ ‘क्वांटिटेटिव बायोलॉजी’ और ‘बायो-स्टैटिस्टिक्स’ जैसे अन्य शब्दों के साथ वैकल्पिक रूप से और परस्पर रूप से किया जाता है। हालाँकि, यह ध्यान दिया जाना चाहिए कि इन परिभाषाओं का उपयोग विशेषज्ञों और व्यवसायियों के बीच भिन्न होता है, और समय के साथ बदल गया है।

चित्र 9.2: बायोइनफॉरमैटिक्स की अंतःविषय प्रकृति: कंप्यूटर विज्ञान, गणित, इंजीनियरिंग और सांख्यिकी जैसे एक या अधिक अन्य विषयों के साथ जीव विज्ञान का प्रतिच्छेदन

9.2.1. ऐतिहासिक परिप्रेक्ष्य

बायोइनफॉरमैटिक्स डेटा माइनिंग के साथ-साथ नई परिकल्पना के निर्माण द्वारा नए निष्कर्षों की खोज में सहायता करता है। यह आणविक डेटा के मॉडलिंग या विश्लेषण के माध्यम से किया जाता है। अधिकांश बायोइनफॉरमैटिक्स उपकरण या तो अनुक्रम और संरचना डेटाबेस से पहले से मौजूद न्यूक्लियोटाइड और प्रोटीन डेटा का उपयोग करते हैं, या नेक्स्ट-जनरेशन सीक्वेंसर और डीएनए माइक्रोएरे जैसे हाई-थ्रूपुट उपकरणों का उपयोग करके उत्पन्न नए डेटा का उपयोग करते हैं। यूएसए में नेशनल सेंटर फॉर बायोटेक्नोलॉजी इनफॉरमेशन (NCBI) बायोइनफॉरमैटिक्स उपकरणों और सेवाओं के संसाधन के रूप में बनाया गया था। इसमें न्यूक्लियोटाइड और ग्रंथ सूची डेटाबेस हैं। जीनबैंक, एक व्यापक रूप से उपयोग किया जाने वाला डेटाबेस जो सभी सार्वजनिक रूप से उपलब्ध डीएनए अनुक्रमों को संग्रहीत करता है, 1982 में लॉन्च किया गया था। हालाँकि इस शब्द के व्यापक उपयोग से बहुत पहले बायोइनफॉरमैटिक्स का अभ्यास किया जाता था, लेकिन 1991 तक यह साहित्य में दिखाई देने लगा। मानव जीनोम परियोजना के शुभारंभ के बाद इस नाम को व्यापक स्वीकृति मिली और अनुक्रम डेटा के विश्लेषण के लिए बायोइनफॉरमैटिक्स उपकरणों का बड़े पैमाने पर उपयोग किया गया। इसलिए, साहित्य में बायोइनफॉरमैटिक्स शब्द का उपयोग 30 वर्ष से अधिक पुराना नहीं है। जीनोम अनुक्रमण और उच्च-प्रदर्शन कम्प्यूटिंग युग के बाद, जैव प्रौद्योगिकी और कम्प्यूटिंग प्रौद्योगिकी में प्रगति और पहुंच के बाद, बायोइनफॉरमैटिक्स ने व्यापक आकर्षण प्राप्त किया है। इससे पहले, जब कम थ्रूपुट परख पर ध्यान केंद्रित किया गया था, जैसे कि एकल जीन की क्रिया का अध्ययन करना या माइक्रोस्कोप के तहत आकृति विज्ञान का अध्ययन करना, बायोइनफॉरमैटिक्स का उपयोग अभी भी किया जाता था लेकिन छोटे पैमाने पर।

संरचनात्मक बायोइनफॉरमैटिक्स, अनुक्रमण और डीएनए माइक्रोएरे जैसे हाई-थ्रूपुट जीनोम-वाइड परख पर आधारित सूचना विज्ञान से पहले आती है। ऐसा इसलिए है क्योंकि 1900 के दशक की शुरुआत में एनएमआर स्पेक्ट्रोस्कोपी और एक्स-रे क्रिस्टलोग्राफी का उपयोग करके प्रोटीन की त्रि-आयामी संरचनाओं पर अध्ययन, जीनोम और अन्य -ओम सूचना विज्ञान से पहले का है जो केवल 2000 के दशक की शुरुआत में शुरू हुआ और आज तक जारी है। प्रोटीन डेटा बैंक (PDB) संरचनाओं और जीनबैंक प्रविष्टियों की संख्या हर साल बढ़ रही है। बायोइनफॉरमैटिक्स में प्राथमिक चिंता डेटाबेस के रूप में अनुक्रम और संरचनात्मक डेटा का प्रबंधन करना, और इन डेटाबेस से डेटा खनन करके जैविक अर्थ प्राप्त करना है। NCBI विभिन्न श्रेणियों (जीन, जीनोम, संरचना, अनुक्रम, आदि) के तहत न्यूक्लियोटाइड और प्रोटीन डेटा होस्ट करता है। वर्तमान में, जैविक डेटा, अभूतपूर्व दर पर उत्पादित, और उनके विश्लेषण और व्याख्या के साथ-साथ महत्वपूर्ण जैविक अंतर्दृष्टि तक ले जाने वाले को उच्च प्राथमिकता दी गई है। इसे प्राप्त करने के लिए सांख्यिकीय अनुकूलन और कई क्षेत्रों से संश्लेषण के साथ नए, अनुकूलित और बेहतर एल्गोरिदम और उपकरण विकसित और कार्यान्वित किए गए हैं। आणविक मार्ग, जीन अभिव्यक्ति, प्रोटीन संरचना और कार्य, अंतःक्रिया नेटवर्क, रोग-संबंधी परिवर्तन, जीव विशिष्टता और नियामक नेटवर्क जैसे सूचना के द्वितीयक और तृतीयक स्तरों पर आधारित डेटाबेस तब से विकसित और उपयोग किए गए हैं। बायोइनफॉरमैटिक्स एक विकसित होने वाला क्षेत्र है। जैविक डेटा, जीन और एक्सॉन-इंट्रॉन सीमाओं की गतिशील प्रकृति के कारण, अनुक्रमों में संदूषण और विसंगतियां, इन सिलिको अनुवाद त्रुटियां जैसे फ्रेमशिफ्ट त्रुटियां, एनोटेशन त्रुटियां, असेंबली त्रुटियां, और साधारण वर्तनी की गलतियां लगातार अद्यतन की जा रही हैं।

अब हम विभिन्न प्रकार के जैविक अणुओं, इन तकनीकों द्वारा उत्पादित डेटा के प्रकार, और डेटा की व्याख्या और विज़ुअलाइज़ेशन के लिए आमतौर पर उपयोग किए जाने वाले विश्लेषणात्मक और सांख्यिकीय वर्कफ़्लो के बारे में जानेंगे (चित्र 9.3)। जीनोमिक डेटा के उत्पादन के लिए उपयोग की जाने वाली प्रायोगिक तकनीकों का विवरण यूनिट V में वर्णित है।

चित्र 9.3. जैव अणुओं से कार्य तक

9.2.2. जैव अणुओं के विश्लेषण के लिए प्रायोगिक प्रौद्योगिकियों के प्रकार

जैव अणुओं की पहचान और/या मात्रा निर्धारण के लिए उपयोग की जाने वाली कुछ महत्वपूर्ण प्रायोगिक प्रौद्योगिकियां तालिका 9.2 में दी गई हैं। इनमें से कुछ तकनीकों का विवरण यूनिट V में वर्णित है।

तालिका 9.2: प्रौद्योगिकी का नाम, जैव अणु और प्रौद्योगिकी का उद्देश्य

प्रौद्योगिकी	जैव अणु	उद्देश्य
PCR (पॉलीमरेज़ चेन रिएक्शन)	DNA	रुचि के क्षेत्र को प्रवर्धित करना
RT (रियल-टाइम)-PCR/qPCR (मात्रात्मक PCR)	RNA	RNA अभिव्यक्ति का पता लगाना
नेक्स्ट-जनरेशन अनुक्रमण	DNA/RNA	जीन/जीनोम और RNA का अनुक्रमण करना
जेल इलेक्ट्रोफोरेसिस	DNA, RNA और प्रोटीन	उनके आकार और आवेश के आधार पर खंडों का पृथक्करण
HPLC (हाई-परफॉर्मेंस लिक्विड क्रोमैटोग्राफी)	मेटाबोलाइट्स	मेटाबोलाइट्स का पृथक्करण, पहचान और मात्रा निर्धारण
MS (मास स्पेक्ट्रोमेट्री)	DNA, प्रोटीन, मेटाबोलाइट्स	विखंडन, समस्थानिक संरचना का मापन और द्रव्यमान निर्धारण
EM (इलेक्ट्रॉन माइक्रोस्कोप)	DNA, RNA या प्रोटीन	संरचना, और अनुक्रम निर्धारण

9.2.3 आणविक डेटा के प्रकार

विभिन्न प्रौद्योगिकियां विभिन्न जैव अणुओं का परख करती हैं और विभिन्न प्रारूपों में विभिन्न प्रकार के डेटा आउटपुट उत्पन्न करती हैं (तालिका 9.3)। दो सामान्यतः उपयोग किए जाने वाले डीएनए डेटा प्रारूपों (FASTQ और FASTA) का विवरण अध्याय में बाद में दिया गया है (जीनोम इनफॉरमैटिक्स)।

9.2.4 सामान्यतः उपयोग किए जाने वाले विश्लेषणात्मक और सांख्यिकीय वर्कफ़्लो

ओपन सोर्स या अन्य मालिकाना उपकरणों के कार्यान्वयन के लिए जैविक ज्ञान अनिवार्य हो भी सकता है और नहीं भी। हालाँकि, इस अध्याय की शुरुआत में उल्लिखित प्रासंगिक प्रश्न पूछने और जैविक परिणामों की व्याख्या के लिए यह एक आवश्यकता है। किसी भी उपकरण के कार्य के पीछे के तर्क और सिद्धांत को समझना चाहिए, और अंतर्निहित धारणाओं से अवगत होना चाहिए।

तालिका 9.3: आणविक डेटा के प्रकार और उनके प्रारूप

कुछ सामान्यतः उपयोग किए जाने वाले विश्लेषण उपकरण इस प्रकार हैं:

समरूपता खोज (बेसिक लोकल अलाइनमेंट सर्च टूल (BLAST) - blastn, blastp)
अनुक्रम संरेखण (CLUSTAL, MAFFT, MUSCLE)
फाइलोजेनेटिक्स (PHYLIP, PAUP)
जीन भविष्यवाणी (GlimmerHMM, GenScan)
कार्यात्मक समरूपता खोज (HMMER)
RNA संरचना (mfold, sFold, uniFold)
नियामक क्षेत्र विश्लेषण (MatInspector, BEARR, RSAT)
प्रोटीन संरचना (Phyre2, Jpred)

बायोइनफॉरमैटिक्स उपकरण विभिन्न सांख्यिकीय और कम्प्यूटेशनल एल्गोरिदम और दृष्टिकोणों का उपयोग करते हैं। कुछ सामान्यतः उपयोग किए जाने वाले सांख्यिकीय पैकेज हैं:

सांख्यिकीय पैकेज फॉर द सोशल साइंसेज (SPSS)
सांख्यिकीय विश्लेषण प्रणाली (SAS)
$\mathrm{R}$
माइक्रोसॉफ्ट एक्सेल

जैविक डेटा विश्लेषण के अंतिम चरणों में, जीन और प्रोटीन स्तर के निष्कर्षों को कुछ कार्यों से जोड़ा जाता है। इन कार्यात्मक व्याख्याओं को सामान्यतः उपयोग किए जाने वाले जैविक परीक्षणों जैसे कि कार्य-हानि या कार्य-लाभ परख, जीन नॉकआउट और जीन संपादन का उपयोग करके किया जा सकता है। इसके अतिरिक्त, कम्प्यूटेशनल उपकरणों का उपयोग करके प्रभावित नेटव