9.技術(shù)方法
生物信息學(xué)不僅僅是生物學(xué)知識的簡單整理和數(shù)學(xué)、物理學(xué)、信息科學(xué)等學(xué)科知識的簡單應(yīng)用。海量數(shù)據(jù)和復(fù)雜的背景導(dǎo)致機器學(xué)習(xí)、統(tǒng)計數(shù)據(jù)分析和系統(tǒng)描述等方法需要在生物信息學(xué)所面臨的背景之中迅速發(fā)展。巨大的計算量、復(fù)雜的噪聲模式、海量的時變數(shù)據(jù)給傳統(tǒng)的統(tǒng)計分析帶來了巨大的困難,需要像非參數(shù)統(tǒng)計(BMC Bioinformatics,2007,339)、聚類分析(Qual Life Res,2007,1655-63)等更加靈活的數(shù)據(jù)分析技術(shù)。高維數(shù)據(jù)的分析需要偏最小二乘(partial least squares,PLS)等特征空間的壓縮技術(shù)。在計算機算法的開發(fā)中,需要充分考慮算法的時間和空間復(fù)雜度,使用并行計算、網(wǎng)格計算等技術(shù)來拓展算法的可實現(xiàn)性。
10.其他
如基因表達譜分析,代謝網(wǎng)絡(luò)分析;基因芯片設(shè)計和蛋白質(zhì)組學(xué)數(shù)據(jù)分析等,逐漸成為生物信息學(xué)中新興的重要研究領(lǐng)域;在學(xué)科方面,由生物信息學(xué)衍生的學(xué)科包括結(jié)構(gòu)基因組學(xué),功能基因組學(xué),比較基因組學(xué),蛋白質(zhì)學(xué),藥物基因組學(xué),中藥基因組學(xué),腫瘤基因組學(xué),分子流行病學(xué)和環(huán)境基因組學(xué),成為系統(tǒng)生物學(xué)的重要研究方法。從發(fā)展不難看出,基因工程已經(jīng)進入了后基因組時代。我們也有應(yīng)對與生物信息學(xué)密切相關(guān)的如機器學(xué)習(xí),和數(shù)學(xué)中可能存在的誤導(dǎo)有一個清楚的認識。
五、生物信息學(xué)的研究方法
以數(shù)據(jù)(庫)為核心:
1 數(shù)據(jù)庫的建立
2 生物學(xué)數(shù)據(jù)的檢索
3 生物學(xué)數(shù)據(jù)的處理
4 生物學(xué)數(shù)據(jù)的利用:計算生物學(xué)
六、機器學(xué)習(xí)
生物信息的大規(guī)模給數(shù)據(jù)挖掘提出了新課題和挑戰(zhàn),需要新的思想的加入.常規(guī)的計算機算法仍可以應(yīng)用于生物數(shù)據(jù)分析中,但越來越不適用于序列分析問題.究其原因,是由于生物系統(tǒng)本質(zhì)上的模型復(fù)雜性及缺乏在分子層上建立的完備的生命組織理論.西蒙曾給出學(xué)習(xí)的定義:學(xué)習(xí)是系統(tǒng)的變化,這種變化可使系統(tǒng)做相同工作時更有效。機器學(xué)習(xí)的目的是期望能從數(shù)據(jù)中自動地獲得相應(yīng)的理論,通過采用如推理,模型擬合及從樣本中學(xué)習(xí),尤其適用于缺乏一般性的理論,"噪聲"模式,及大規(guī)模數(shù)據(jù)集.因此,機器學(xué)習(xí)形成了與常規(guī)方法互補的可行的方法.機器學(xué)習(xí)使得利用計算機從海量的生物信息中提取有用知識,發(fā)現(xiàn)知識成為可能.機器學(xué)習(xí)方法在大樣本,多向量的數(shù)據(jù)分析工作中發(fā)揮著日益重要的作用,而大量的基因數(shù)據(jù)庫處理需要計算機能自動識別,標(biāo)注,以避免即耗時又花費巨大的人工處理方法.早期的科學(xué)方法——觀測和假設(shè)——面對高數(shù)據(jù)的體積,快速的數(shù)據(jù)獲取率和客觀分析的要求——已經(jīng)不能僅依賴于人的感知來處理了.因而,生物信息學(xué)與機器學(xué)習(xí)相結(jié)合也就成了必然.機器學(xué)習(xí)中最基本的理論框架是建立在概率基礎(chǔ)上的,從某種意義來說,是統(tǒng)計模型擬合的延續(xù),其目的均為提取有用信息.機器學(xué)習(xí)與模式識別和統(tǒng)計推理密切相關(guān).學(xué)習(xí)方法包括數(shù)據(jù)聚類,神經(jīng)網(wǎng)絡(luò)分類器和非線性回歸等等.隱馬爾可夫模型也廣泛用于預(yù)測DNA的基因結(jié)構(gòu).研究重心包括:1)觀測和探索有趣的現(xiàn)象.ML研究的焦點是如何可視化和探索高維向量數(shù)據(jù).一般的方法是將其約簡至低維空間,如常規(guī)的主成分分析(PCA),核主成分分析(KPCA),獨立成分分析(Independent component analysis),局部線性嵌套(LocallyLinear embedding).2)生成假設(shè)和形式化模型來解釋現(xiàn)象[6].大多數(shù)聚類方法可看成是擬合向量數(shù)據(jù)至某種簡單分布的混合.在生物信息學(xué)中聚類方法已經(jīng)用于microarray數(shù)據(jù)分析中,癌癥類型分類及其他方向中.機器學(xué)習(xí)也用于從基因數(shù)據(jù)庫中獲得相應(yīng)的現(xiàn)象解釋.機器學(xué)習(xí)加速了生物信息學(xué)的進展,也帶了相應(yīng)的問題.機器學(xué)習(xí)方法大多假定數(shù)據(jù)符合某種相對固定的模型,而一般數(shù)據(jù)結(jié)構(gòu)通常是可變的,在生物信息學(xué)中尤其如此,因此,有必要建立一套不依賴于假定數(shù)據(jù)結(jié)構(gòu)的一般性方法來尋找數(shù)據(jù)集的內(nèi)在結(jié)構(gòu).其次,機器學(xué)習(xí)方法中常采用"黑箱"操作,如神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型,對于獲得特定解的內(nèi)在機理仍不清楚.
七、數(shù)學(xué)問題
生物信息學(xué)中數(shù)學(xué)占了很大的比重。統(tǒng)計學(xué),包括多元統(tǒng)計學(xué),是生物信息學(xué)的數(shù)學(xué)基礎(chǔ)之一;概率論與隨機過程理論,如隱馬爾科夫鏈模型(HMM),在生物信息學(xué)中有重要應(yīng)用;其他如用于序列比對的運籌學(xué);蛋白質(zhì)空間結(jié)構(gòu)預(yù)測和分子對接研究中采用的最優(yōu)化理論;研究DNA超螺旋結(jié)構(gòu)的拓撲學(xué);研究遺傳密碼和DNA序列的對稱性方面的群論等等.總之,各種數(shù)學(xué)理論或多或少在生物學(xué)研究中起到了相應(yīng)的作用.但并非所有的數(shù)學(xué)方法在引入生物信息學(xué)中都能普遍成立的,以下以統(tǒng)計學(xué)和度量空間為例來說明.
1、統(tǒng)計學(xué)的悖論
數(shù)學(xué)的發(fā)展是伴隨悖論而發(fā)展的.對于進化樹研究和聚類研究中最顯著的悖論莫過于均值了,就說明了要采用常規(guī)的均值方法不能將這兩類分開,也表明均值并不能帶來更多的數(shù)據(jù)的幾何性質(zhì).那么,如果數(shù)據(jù)呈現(xiàn)類似的特有分布時,常有的進化樹算法和聚類算法(如K-均值)往往會得錯誤的結(jié)論.統(tǒng)計上存在的陷阱往往是由于對數(shù)據(jù)的結(jié)構(gòu)缺乏一般性認識而產(chǎn)生的.
2、度量空間的假設(shè)
在生物信息學(xué)中,進化樹的確立,基因的聚類等都需要引入度量的概念.舉例來說,距離上相近或具有相似性的基因等具有相同的功能,在進化樹中滿足分值最小的具有相同的父系,這一度量空間的前提假設(shè)是度量在全局意義下成立.那么,是否這種前提假設(shè)具有普適性呢,我們不妨給出一般的描述:假定兩個向量為A,B,其中,則在假定且滿足維數(shù)間線性無關(guān)的前提下,兩個向量的度量可定義為:⑴依據(jù)上式可以得到滿足正交不變運動群的歐氏度量空間,這也是大多數(shù)生物信息學(xué)中常采用的一般性描述,即假定了變量間線性無關(guān).然而,這種假設(shè)一般不能正確描述度量的性質(zhì),尤其在高維數(shù)據(jù)集時,不考慮數(shù)據(jù)變量間的非線性相關(guān)性顯然存在問題,由此,我們可以認為,一個正確的度量公式可由下式給出:⑵上式中采用了愛因斯坦和式約定,描述了變量間的度量關(guān)系.后者在滿足⑶時等價于⑴,因而是更一般的描述,然而問題在于如何準(zhǔn)確描述變量間的非線性相關(guān)性,我們正在研究這個問題.
八、統(tǒng)計學(xué)習(xí)
生物信息學(xué)中面對的數(shù)據(jù)量和數(shù)據(jù)庫都是規(guī)模很大的,而相對的目標(biāo)函數(shù)卻一般難以給出明確的定義.生物信息學(xué)面臨的這種困難,可以描述成問題規(guī)模的巨大以及問題定義的病態(tài)性之間的矛盾,一般從數(shù)學(xué)上來看,引入某個正則項來改善性能是必然的[7].以下對基于這一思想產(chǎn)生的統(tǒng)計學(xué)習(xí)理論,Kolmogorov復(fù)雜性[98]和BIC(Bayesian Information Criterion)[109]及其存在的問題給出簡要介紹.支持向量機(SVM)是較熱門的一種方法,其研究背景是Vapnik的統(tǒng)計學(xué)習(xí)理論,是通過最大化兩個數(shù)據(jù)集的最小間隔來實現(xiàn)分類,對于非線性問題則采用核函數(shù)將數(shù)據(jù)集映射至高維空間而又無需顯式描述數(shù)據(jù)集在高維空間的性質(zhì),這一方法較之神經(jīng)方法的好處在于將神經(jīng)網(wǎng)絡(luò)隱層的參數(shù)選擇簡化為對核函數(shù)的選擇,因此,受到廣泛的注意.在生物信息學(xué)中也開始受到重視,然而,核函數(shù)的選擇問題本身是一個相當(dāng)困難的問題,從這個層次來看,最優(yōu)核函數(shù)的選擇可能只是一種理想,SVM也有可能象神經(jīng)網(wǎng)絡(luò)一樣只是機器學(xué)習(xí)研究進程中又一個大氣泡.Kolmogorov復(fù)雜性思想與統(tǒng)計學(xué)習(xí)理論思想分別從不同的角度描述了學(xué)習(xí)的性質(zhì),前者從編碼的角度,后者基于有限樣本來獲得一致收斂性.Kolmogorov復(fù)雜性是不可計算的,因此由此衍生了MDL原則(最小描述長度),其最初只適用于離散數(shù)據(jù),已經(jīng)推廣至連續(xù)數(shù)據(jù)集中,試圖從編碼角度獲得對模型參數(shù)的最小描述.其缺陷在于建模的復(fù)雜性過高,導(dǎo)致在大數(shù)據(jù)集中難以運用.BIC準(zhǔn)則從模型復(fù)雜性角度來考慮,BIC準(zhǔn)則對模型復(fù)雜度較高的給予大的懲罰,反之,懲罰則小,隱式地體現(xiàn)了奧卡姆剃刀("Occam Razor")原理,廣泛應(yīng)用于生物信息學(xué)中.BIC準(zhǔn)則的主要局限是對參數(shù)模型的假定和先驗的選擇的敏感性,在數(shù)據(jù)量較大時處理較慢.因此,在這一方面仍然有許多探索的空間。
九、討論總結(jié)
人類對基因的認識,從以往的對單個基因的了解,上升到在整個基因組水平上考察基因的組織結(jié)構(gòu)和信息結(jié)構(gòu),考察基因之間在位置,結(jié)構(gòu)和功能上的相互關(guān)系.這就要求生物信息學(xué)在一些基本的思路上要做本質(zhì)的觀念轉(zhuǎn)變,本節(jié)就這些問題做出探討和思索。
1、啟發(fā)式方法
Simond在人類的認知一書中指出,人在解決問題時,一般并不去尋找最優(yōu)的方法,而只要求找到一個滿意的方法.因為即使是解決最簡單的問題,要想得到次數(shù)最少,效能最高的解決方法也是非常困難的.最優(yōu)方法和滿意方法之間的困難程度相差很大,后者不依賴于問題的空間,不需要進行全部搜索,而只要能達到解決的程度就可以了.正如前所述,面對大規(guī)模的序列和蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)集,要獲得全局結(jié)果,往往是即使算法復(fù)雜度為線性時也不能夠得到好的結(jié)果,因此,要通過變換解空間或不依賴于問題的解空間獲得滿意解,生物信息學(xué)仍需要人工智能和認知科學(xué)對人腦的進一步認識,并從中得到更好的啟發(fā)式方法。
問題規(guī)模不同的處理:Marvin Minsky在人工智能研究中曾指出:小規(guī)模數(shù)據(jù)量的處理向大規(guī)模數(shù)據(jù)量推廣時,往往并非算法上的改進能做到的,更多的是要做本質(zhì)性的變化.這好比一個人爬樹,每天都可以爬高一些,但要想爬到月球,就必須采用其他方法一樣.在分子生物學(xué)中,傳統(tǒng)的實驗方法已不適應(yīng)處理飛速增長的海量數(shù)據(jù).同樣,在采用計算機處理上,也并非依靠原有的計算機算法就能夠解決現(xiàn)有的數(shù)據(jù)挖掘問題.如在序列對齊(sequence Alignment)問題上,在小規(guī)模數(shù)據(jù)中可以采用動態(tài)規(guī)劃,而在大規(guī)模序列對齊時不得不引入啟發(fā)式方法,如BLAST,F(xiàn)ASTA.
2、樂觀中的隱擾
生物信息學(xué)是一門新興學(xué)科,起步于20世紀(jì)90年代,至今已進入"后基因組時代",在這一領(lǐng)域的研究人員均呈普遍樂觀態(tài)度,那么,是否存在潛在的隱擾呢不妨回顧一下早期人工智能的發(fā)展史,在1960年左右,西蒙曾相信不出十年,人類即可象完成登月一樣完成對人的模擬,造出一個與人智能行為完全相同的機器人.而至今為止,這一諾言仍然遙遙無期.盡管人工智能研究得到的成果已經(jīng)滲入到各個領(lǐng)域,但對人的思維行為的了解遠未完全明了.從本質(zhì)來看,這是由于最初人工智能研究上定位錯誤以及沒有從認識論角度看清人工智能的本質(zhì)造成的;從研究角度來看,將智能行為還原成一般的形式化語言和規(guī)則并不能完整描述人的行為,期望物理科學(xué)的成功同樣在人工智能研究中適用并不現(xiàn)實.反觀生物信息學(xué),其目的是期望從基因序列上解開一切生物的基本奧秘,從結(jié)構(gòu)上獲得生命的生理機制,這從哲學(xué)上來看是期望從分子層次上解釋人類的所有行為和功能和致病原因.這類似于人工智能早期發(fā)展中表現(xiàn)的樂觀行為,也來自于早期分子生物學(xué),生物物理和生物化學(xué)的成就.然而,從本質(zhì)上來講,與人工智能研究相似,都是希望將生命的奧秘還原成孤立的基因序列或單個蛋白質(zhì)的功能,而很少強調(diào)基因序列或蛋白質(zhì)組作為一個整體在生命體中的調(diào)控作用.我們因此也不得不思考,這種研究的最終結(jié)果是否能夠支撐我們對生物信息學(xué)的樂觀呢 ?說肯定的話也許為時尚早.
3、總結(jié)
綜上所述,不難看出,生物信息學(xué)并不是一個足以樂觀的領(lǐng)域,究竟原因,是由于其是基于分子生物學(xué)與多種學(xué)科交叉而成的新學(xué)科,現(xiàn)有的形勢仍表現(xiàn)為各種學(xué)科的簡單堆砌,相互之間的聯(lián)系并不是特別的緊密。在處理大規(guī)模數(shù)據(jù)方面,沒有行之有效的一般性方法;而對于大規(guī)模數(shù)據(jù)內(nèi)在的生成機制也沒有完全明了,這使得生物信息學(xué)的研究短期內(nèi)很難有突破性的結(jié)果。那么,要得到真正的解決,最終不能從計算機科學(xué)得到,真正地解決可能還是得從生物學(xué)自身,從數(shù)學(xué)上的新思路來獲得本質(zhì)性的動力。毫無疑問,正如Dulbecco1986年所說:"人類的DNA序列是人類的真諦,這個世界上發(fā)生的一切事情,都與這一序列息息相關(guān)"。但要完全破譯這一序列以及相關(guān)的內(nèi)容,我們還有相當(dāng)長的路要走。
責(zé)編:微科普