生物信息学Workshop计划
生物信息学对新时代的生物学研究和生物专业的学生都是至关重要的,具体论述可参加上篇博文——《为什么要学点生物信息学?》,这里就不展开来说了。而学校开设的生物信息学课程往往缺乏编程的实战训练,就容易变得纸上谈兵。
生物信息学就是用来解决从分子生物学的中提取的各种难度的计算问题的。程序设计和生物信息学是一定离不开的,所需的编程语言则推荐R和Python,这两门编程语言可谓各占数据分析的半边江山。R语言可以便捷地进行数据可视化。Python语言则很容易上手——被称为”可执行的伪代码“,社区强大而活跃,碰到问题很容易找到解决办法。两者都支持丰富的组学数据分析的工具包。Python还被誉为数据科学第一语言!不但可以进行文本处理,还可以进行统计分析,机器学习,作出精美的数据图等等。
Rosalind提供了一个通过编程实战解决问题来学习生物信息学的平台,非常有趣又轻松。此项目的名称是为了纪念Rosalind Franklin,她与Raymond Gosling的X射线晶体学促进了Watson和Crick发现DNA双螺旋。
此Workshop则依照Rosalind的设计也分为四个模块:
- Python基础与R基础,包括Python的科学计算SciPy工具包(包括NumPy、Pandas和Matplotlib)和R的ggplot2模块。
-
编程来实现一些简单常见的计算机算法。
- 编程来实现一些常见各种生物信息学主题的算法:序列比对,动态规划,基因组装配,基因组重排,系统发育,计算质谱,概率论,字符串处理等。
- 用现成的一些工具来进行一些生物信息学分析实战,基于已有公开的数据库和数据集来复现一些paper的分析和可视化结果。第一:使用R语言的seurat、URD,Python语言的Spring、Scanpy等工具来进行单细胞测序(sc-RNA seq)的数据分析,来复现三篇单细胞发育谱系树的paper中的一些结果:The dynamics of gene expression in vertebrate embryogenesis at single-cell resolution;Single-cell mapping of gene expression landscapes and lineage in the zebrafish embryo;Single-cell reconstruction of developmental trajectories during zebrafish embryogenesis。生物个体发育过程中的所有细胞分裂事件的细胞谱系树为回溯发育的轨迹提供了关键的进化信息,对肿瘤发生的过程和精准治疗也有启示意义。所以,第 二:使用BWA、SAMtools、TopHat、Genome Analysis Toolkit (GATK) 等主流生物信息学软件,参考两篇神经胶质瘤的paper的分析方法(Clonal evolution of glioblastoma under therapy;Spatiotemporal genomic architecture informs precision oncology in glioblastoma),对多源性肺癌的TCGA和本地样本的基因组数据来进行分析,以此获得高精度的肿瘤细胞群体的异质性信息。此部分可以作为本科生的毕业论文以及相关科研论文的内容。
Workshop的slides使用Jupyter Notebook这种基于网页的、可交互的、代码和文档交融并存的格式(ipynb)来展现,使用Anaconda做为数据分析的集成环境(其包括R studio),slides和code都放在GitHub上面来方便讨论和学习。
感兴趣的同学可以加QQ群 Fur Rosalind(和之前的刷题网站一样都是为了纪念和致敬Rosalind Franklin),群号:873606724。
时间:10月中旬以后开始,每周或每两周一次,周日,具体时间在QQ群中后续告知。
地点:中山大学北校区科技楼,具体地点在QQ群中后续告知。
对象:在广州市的对生物信息学感兴趣的本科生和研究生。