为什么要学点生物信息学

Posted by Negentropy on the Edge on September 5, 2018

#为什么要学点生物信息学?

一开始,先来看一个经典的笑话,生物学家能修好收音机吗?(Can a Biologist Fix a Radio?)

家里的收音有二十多年的历史了,突然有一天收音机故障了,一个生物学PhD打算自己动手修理收音机。对于修收音机的这个任务,生物学家会采用什么研究手段呢?作者提到:

  1. 首先,争取经费买一堆收音机;拆开观察其不同形状;
  2. 然后,拆掉其中一个元件(产生一个phenotype)。在这个过程当中,一个幸运的博士后拆掉一根导线,发现完全阻止了电磁波-声波的转换。他会将其命名为Serendipitous Recovered Component(Src)。同时,他发现Src是整个装置必要的,因为它是唯一一个连接长条状物体(天线)和其余部分的通路。这个长条状物体于是被命名为Most Important Component(Mic)。由此可以展开一系列的研究,显示这一物体应该由金属构成,且可伸缩,比收音机本体还长,长度越长越具有优越性;并从进化论的角度,解释为何将这一结构进化为可伸缩结构。Mic的研究进入了鼎盛时期。
  3. 然而过了一段时间,从另一个实验室走出的一名执着的研究生发现,在收音机内部还有一种长条状的物体,对于这一转换也是至关重要的。让发现者非常兴奋,同时也让热火朝天的Mic领域的研究者们严重质疑的一个现象是,这一长条状结构由石墨构成,同时改变它的长度将不会明显改变整个系统的表现。这个研究生接着证明,Mic其实并不是完全必要的;因此将他的发现命名为Ric (Really ImportantComponent).这一争论将分为两派,一派通过实验证明在某些收音机型号中Mic的存在,而另一派则在同一型号的收音机中,发现了Ric。
  4. 这个争论会一直延续,直到有一天,一个非常聪明的博后发现,有一个红色的装置一按就会彻底停止电磁-声转换,他会将这一开关命名为Undoubtly Most ImportantComponent (U-Mic)。
  5. 受到这些争论的启发,许多科学家参与进了这一研究。为了系统地研究,其中一个军团将这些收音机全部打碎,并检测其中所有片段,将这些片段读出(基因组测序),并给出其在组学中的作用。

为什么会这样呢?

在于,物理学家和生物学家对于问题的思路是截然不同的:物理学是自底向上的还原论,先有了最基本的力热光电,然后才有更先进的原子、光谱、微波等,再是量子力学。这就像是盖房子,先打好了地基,然后是柱梁,一层层往上。电子工程则是物理学的应用,以手机为例,先掌握了基本的电容电阻,然后是晶体管-电子管-三极管-逻辑电路,接下来是大规模集成电路,最后把主板、触摸屏、微型化相机、蓝牙、陀螺仪、GPS等集成起来,才成为现有的手机。当然了,还原论也不是万能的。物理学家并不能靠Schrödinger equation计算出全部的化学反应,化学家也不能从各种分子合成出一个细菌。

而生物学家呢?研究的主体是人体和模式生物(如小鼠、果蝇、线虫、大肠杆菌等)。一开始就研究最复杂的东西,但是,哪怕对于线虫这样一个肉眼都看不清的小虫子,由于其高度复杂性,现在也是不知道它是怎么组装的(硬件层面,从分子、细胞到个体本身),二是不知道它是怎么运作的(软件层面,基因组)。而且生物体不是最优化设计,是受历史环境和进化约束的。面对如此复杂的对象,生物学家也可以通过破解和编辑基因组来破解生命,所谓的逆向工程。

论学科法发展,如果理论工具不能成功,这种传统小作坊的路数不但离认知生物学的本义相去甚远,还将继续耗费、甚至浪费极大的人力、智力、财力资源——没有系统性框架,很多看似确凿无疑的实验结果不过只有Artificial的意义,而真正的科学家绝对不会面对黑箱操作心安理得。即使论实验生物学现状,各种计算工具已经在生命科学中起到不可替代的作用,高通量筛选、预测目的基因再去做功能比查文献瞎蒙的都高到不知道哪里去了,国内高水平的机构都在融合实验、统计和计算等多方面的力量,迷信实验只能说格局真不行。当今生物学的未来就需要像Isaac Newton、 Henri Poincaré这些经典的数理双修的科学家一样,致力于发展对物理学/生物学有重大影响的数学/计算方法,这里呢,不得不吹一波Ronald A. Fisher

谈到生物学的理论,生物学要比物理和化学复杂多了,所以能称之为规律的则太少了。目前的生物学还是至少有两条规律的:

第一,生命实体和过程都遵循着物理和化学的规律。比如(DNA-RNA-Protein)中心法则,至少现在生物学家中没人去说“生命力“这样一个词了。

第二,即因竞争性基因的高突变率和随机性数量波动造成的轻微随机扰动之外的所有进化都是自然选择的结果(有待争议)。

但是这些规律当然是不够的,但是生物学是很包容的,引入了很多其他学科的理论,最经典的就是系统科学(复杂性科学、复杂网络)里面的系统论、控制论和信息论等,在生物学中呢,则大致对应系统生物学、合成生物学和生物信息学(这里和计算生物学近似,但是实际上有差别的)。这里则主要谈一下生物信息学,毕竟21世纪是CS(计算机科学)的世纪,hhh。

生物信息学领域有一篇Casey Bergman写的知名劝进文,Top N Reasons To Do A Ph.D. or Post-Doc in Bioinformatics/Computational Biology ,这里转载一下薛宇老师翻译的版本:

0.计算是21世纪生物学研究的核心技能。因为生物学正越来越变成一门定量的科学。在过去的三个世纪里,生物学从一门观察性科学转变为实验科学,并即将变为一门数据科学。简单的发现(好矿)都被人都挖得差不多了,仅靠观察和实验作重要发现已越来越难。在未来,新的发现需要大数据集的支持,以及新分析方法的使用。大数据和复杂模型需要计算技能,想逃避这个现实是不可能的。分子生物学的领军人物、诺奖获得者Walter Gilbert在20年前是怎么说的:若要利用充斥全世界计算机网络的、海量的序列信息,生物学家不仅必须要成为计算机学者,并且要改变解答生命问题的方式。另一位分子生物学家、诺奖获得者Sydney Brenner的意见:我已经喋喋不休的劝说大家计算对生物学来说不仅是重要的工具,并且也能够提供分析复杂性的模型…测序技术的发展和广泛应用已经产生了海量的信息,因此对计算机的需求不应该再成疑问。

1. 计算技能是高度可转移的。大家要面对现实:不是所有人读博士或做博后以后都从事学术研究。华盛顿邮报的报道称:生物学和生命科学的博士大约仅有14%毕业后五年内能够获得教职。所以你在博士和博后期间接受的训练,有很高的概率是需要用到学术之外,所以为啥不学学应用度最广的技能?实验技能仅能用于诸如实验室里做实验,或者生物科学相关的医药市场之类的工作 (比如销售),而计算技能不仅搞生物用得着,在其他领域也照样有用。提高你的计算水平不仅能为找工作提供更好的机会,并且能让你终生受益,因为大家的日常生活已越来越离不开计算机。

2. 计算能够帮助提高你的核心科学技能。生物学本质上就一个杂乱无章并且毫无头绪的领域。那些受过严格训练的生物学家通过漂亮的实验设计和统计分析来处理这堆乱麻。但现实情况是大多数生物学家在数据收集和分析方面的习惯并不好。计算会强迫你面对并克服做科研的人为倾向,因此自然而然就发展处核心的科学技能例如:有逻辑性的设计实验,持续的收集数据,设计可重复的方法学,并利用合适的统计方法分析数据。所以即使你不愿放弃实验学研究,计算训练也能提供最好的科学训练并且增强你的实验技能。

3. 应当在博士或博后期间获得新的技能。绝大多数生物学者读博士的时候,实验方面的训练来自高中或大学的学习。所以这些训练一般不是最领先的,你也没有经过更高级的研究来强化你的实验技能,所以一般也就只能自己摸索着训练自己。此外,很多生物学的博士生没有经过科学计算技能的训练,所以也就只会用用Excel或者有图形化界面的统计软件。因此在博士或博后期间,应该接受一些新的、并且你之前木有的训练,获得新的技能。Casey的观点是,学生信最好的时间是读博,其次是博后。这是因为读博士的时候你会有时间,并且你老板有钱有装备来让你瞎折腾,并且这种能够心无旁骛瞎折腾的机会这辈子你也就这一次。博后的时候学生信也蛮好,但合同比较短,要依赖于PI,并且还有要发好文章的压力,这样时间上就没有博士充裕。

4. 能够在生物学里建立更独特的技能。上面讲了,大多数生物学家接受的都是实验训练,只有很少一部分懂计算。虽然这个现状正在改变,但如果你编程的话,在至少10年内还是很有机会获得竞争的优势,或者从后基因组生物学中获得更多的结果。因为你能拿到其他很多人拿不到的结果,所以事实上你也就获得了脱颖而出的技能,这样争取工作的时候你也就更有竞争力。

5. 可以发表更多的论文。博士也好,博后也罢,时间过得都很快。如果你不想被淘汰出局,其实没有太多的时间供你浪费。叔不骗你,生信能够给你的更多,并且能够使你迅速转到进展更快的研究上,而实验经常则是失败,并且更经常是长年累月失败成习惯。因此,一般搞生信的单位时间里发表论文更多。当然喽,江湖上常见的忽悠是,实验的论文更难发表所以也就更有价值 (你信不信,反正Casey是不信),但是大家都清楚的是,论文仍然是科学里的硬通货 (hard currency)。另外,招聘委员会的座右铭“不读文章数数就行”仍然是真实的。并且,一般大家都想看看年轻人是否真有好的想法并且实现,而发表论文就是你能搞定研究的证据。因此生信能让你证明你是个难题终结者,并且帮助你在科学上获得成功。

6. 研究能有更大的灵活性。成为生信学家最酷的事情之一是你的研究不像做实验生物学那样有太多的限制。可能你只是做哪些计算上可做的分析,但这个范围已经足够广阔了,从计算神经生物学到理论生态学,以及两者之间的各种东西。你可以更容易的更换研究题目,但如果你只有实验技能的话那就比较困难。(所以开会的时候师兄就讲,说假如你会抽质粒,那你以后也就会抽质粒) 这种研究的灵活性能够满足你智力上的好奇,或是让你追逐你想做的最新方向。对学生来说,生信研究提供的灵活性(并且还便宜) 能够保证你接受良好的训练,从而在科学生涯早期就做出自己的东西。这个当然很重要,因为越早开始独立做研究,未来也就越容易成功。

7. 工作场所不受限制。有人讲,当需要平衡工作和生活的时候,搞生信仍然能够保证很高的科研产出。实验学家需要围着实验台转悠,但搞生信你可以想在哪里在哪里,在家里通过远程操控计算机也行。因此这种灵活性能够保证你平衡工作和休息,安然度过生命中艰难的岁月,并且做重大的决定更容易,例如建立家庭,因为你可以把代码提交到计算机上然后回家陪娃儿妈,而不需要惦记泡胶完了是否要赶紧回去转膜。所以Casey的意见是,如果你希望既能搞生物学研究,又能摆平家庭,读生信的博士或者博后会更容易让你实现这个目标。这个不光对女生适用,Casey本人以及他的某个朋友也说,最美妙的事情就是一边做生信研究,一边哄娃儿睡觉,可以在实验室里试试。

8. 计算研究的性价比高。既然公共数据库能够获得海量的数据,生信研究就要比大多数实验工作便宜。这个很重要,主要理由是,第一,搞生信的对基金的依赖度要小,正所谓有钱能做,没钱想办法也能活下去,所以你就不需要成为基金的奴隶,或者耗费大量时间申请基金,可以想做啥做啥,灵活性高。在经济不好的时代尤其重要 (这说的显然不符合咱中国国情啊)。上面提到的是生信研究由于成本可以降低,所以学生可以在科研生涯的早起就开始做对研究,这样你也就不用什么时候都抱着你老板的大腿求指点。第二,性价比高更重要之处在于,当你开始建立自己的研究组时,基金和研究组的规模都受限制但你还得保持产出的延续性,那是得精打细算。最后,生信的高性价比是的发展中国家的学者能够获得与发达国家学者同等的研究机会。因此,Casey认为不光是英国,其他发展中国家的学生和学者都应该考虑做生信,从而不收资助的限制成为顶级的学者。

9. 成功的科学家死在办公室。开个玩笑。如果你拿到PI的位子,那么你会经历助理、副教授到教授到老教授最后到死教授这个历程。当然喽,有些勇敢的灵魂们升天了之后还是能找到实验跑回实验室做实验,但这也是稀有品种不是?科研工作者一般习惯坐在电脑前,在办公室里你又舔不到湿实验,但你仍然可以做生信不是?例如Webb Miller指出,引用最多的生信学家历来都是持续做自己的研究,并保证活跃的研究。要记住长期的目标是成为“主要研究员”(Principal Investigator),而不是“名不副实的研究人员”(In Principle Investigator)。因此如果年轻的时候希望做研究,那么问自己:为什么学习不能终生受用的技能,而你实验室其他人则拿来做有趣的发现?

10. 能够知道为啥这个列表是从0开始。Casey写这篇博文最主要的目的是希望能够讨论更多的做生信的好处。他列了这些条希望其他好的想法也能够加入。(不会真不知道为啥从0开始吧?写程序数组的下标都是从0开始的,至少Perl如此。

当然了,理由可以不止这几条,笔者当初也是由于对生物专业未来的恐惧加上对实验的厌烦,吃了这个安利,现在也在读生物信息学方面的研究生,到也乐在其中。当初受一个学长举办的生物信息学WorkShop影响很大,现在也想回馈,也办一个线下的生物信息学的WorkShop,基于计算机的开源精神(free & open),来降低技术壁垒。

分享的内容大致为编程入门(Python基础、SciPy、R基础、ggplot2作图),刷生物信息学编程题(Rosalind),常用生信软件介绍和Linux入门,还有一些基因组学和进化生物学的内容。感兴趣的同学可以加QQ群 Fur Rosalind(和之前的刷题网站一样都是为了纪念和致敬被遗忘的发现双螺旋的女科学家Rosalind Franklin),群号:873606724

时间:暂时未定(十一前第一次,后续则到10月中旬以后),具体时间在QQ群中后续告知。

地点:中山大学北校区科技楼,具体地点在QQ群中后续告知。

对象:在广州市的对生物信息学感兴趣的本科生和研究生。

具体内容可参加下篇博文——生物信息学Workshop计划