生信人員為什么如此高產(chǎn),經(jīng)?梢园l(fā)20分以上的文章,他們生產(chǎn)的數(shù)據(jù)的過程其實(shí)和生產(chǎn)力的三要素不謀而合,生產(chǎn)力包括什么呢?它包括勞動資料,勞動對象,勞動者。
我們一個個來說。
勞動資料,也約摸等于生產(chǎn)工具,他們的生產(chǎn)工具是貴的一皮的高通量測序儀,這也是其高大上的一個原因。目前測序儀只有少數(shù)幾家能生產(chǎn),測序儀已經(jīng)進(jìn)化到第三代,測序成本雖然大大降低,但是對于一些單細(xì)胞的RNA測序做起來,動輒一做幾千個細(xì)胞,這都是在燒錢那,一般的實(shí)驗(yàn)室燒不起,厲害(有錢)的實(shí)驗(yàn)室才能做到。
雖然Illumina占據(jù)了75%的市場,但華大已經(jīng)有了自主產(chǎn)權(quán)的國產(chǎn)測序儀MGISEQ-T7。
為什么測序儀難做呢?
基因測序儀很復(fù)雜,涉及到光機(jī)電、生化反應(yīng)、軟件計(jì)算等不同領(lǐng)域。除了要生產(chǎn)出高精密的測序儀,還要配備有效的試劑盒,以及成套的解決方案。而且還面臨著強(qiáng)大的對手的挑戰(zhàn)。只有做的更快、更優(yōu)、更長甚至更便宜才有獲取市場的可能。
勞動對象,也是你要對誰做實(shí)驗(yàn),科研人員可以對細(xì)胞的基因組,轉(zhuǎn)錄組,蛋白組等進(jìn)行挖掘分析。什么?你問這些組是什么東西?那么,想了解這些東西的伙伴可以先了解一下生物界的定海神針——中心法則,這個短片通俗易懂地介紹了基因的前世今生,對你理解這個問題會有幫助。
基因的故事
每個人都有一套獨(dú)一無二的基因,它在產(chǎn)生你的眼睛鼻子耳朵(美貌)前,會經(jīng)歷轉(zhuǎn)錄經(jīng)歷翻譯一系列的過程,而科學(xué)家們將不同層面的大數(shù)據(jù)捕獲收集起來,形成了每個組,也即是基因組,轉(zhuǎn)錄組,蛋白組。當(dāng)然這可比高中學(xué)的要高深多了,比如有時實(shí)驗(yàn)中出現(xiàn)mRNA升高但蛋白量下降的情況,按理來說蛋白量隨mRNA升高而升高,但是卻反過來了,這背后的原因就有可能是翻譯的效率下降。
為什么說這是大數(shù)據(jù)呢?比如一個人的基因有31.6億個DNA堿基對,2萬多個基因,而中間產(chǎn)生的數(shù)據(jù)更加復(fù)雜,還不包括表觀遺傳、非編碼區(qū)的功能數(shù)據(jù)等等,加上會更多。所以一般生信人員都深諳熱圖等統(tǒng)計(jì)學(xué)的展示手段。因?yàn)樗麄冇兄鳯inux、R語言等計(jì)算機(jī)編程語言,所以這些都是颯颯隨(簡單)的東西。
紅色表示基因表達(dá)上調(diào),藍(lán)色表示基因下調(diào)。
最后一個是勞動者啦,那就是苦逼的實(shí)驗(yàn)狗和禿頭的生物程序猿啦。簡單的來說,進(jìn)測序儀之前,是實(shí)驗(yàn)人員的工作,拿到測序原數(shù)據(jù)后,就是生物程序員的活了。如果要做10000+個細(xì)胞的單細(xì)胞測序,實(shí)驗(yàn)人員要不停地重復(fù)重復(fù),步驟雖簡單,但重復(fù)量之多,容易讓人睡著。。。從而容易出錯。當(dāng)然你愿意的話也可以用高通量的機(jī)器來操作。生信人員要做到不僅是會處理數(shù)據(jù)(雖然這已經(jīng)很難了),但是更難地他們還要在一堆數(shù)據(jù)中找到差異的部分,還要乞求這些數(shù)據(jù)有生物學(xué)上的功能。
寫在最后
上面講的都是戰(zhàn)術(shù),利用生信的戰(zhàn)略來做組學(xué)研究,當(dāng)然是要多組學(xué)的綜合研究,才能多重確認(rèn)結(jié)果,提供更加豐富的解釋。
生產(chǎn)力要高,三個要素缺一不可?茖W(xué)技術(shù)是先進(jìn)生產(chǎn)力的集中體現(xiàn)和重要標(biāo)志,是第一生產(chǎn)力。放在生信上面,簡單的來說,就是程序猿處理測序儀產(chǎn)生的各種組數(shù)據(jù)。
生信員有時候也很囂張,面對如此,下次見面你就和他說,數(shù)據(jù)處理好了嗎?bug解決了嗎?
責(zé)編:微科普