想学菌群生物信息分析?21分钟带你入门!
刘永鑫 2019-09-19
时长:21:43 字幕:张宇微 审校:蓝灿辉
一线研究和科普专家无保留分享:菌群生物信息分析的基本思想、工作环境、基本技能以及常用软件和工具。
刘永鑫
中国科学院遗传与发育生物学研究所工程师
宏基因组公众号创始人
刘永鑫博士,2008年毕业于东北农业大学微生物专业,2014年于中科院遗传发育所获生物信息学博士,2016年遗传学博士后出站留所工作,任宏基因组学实验室工程师。目前主要研究方向为宏基因组数据分析和植物微生物组,QIIME 2项目参与人。目前在Science、Nature Biotechnology等杂志发表论文十余篇。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章400余篇,代表博文有《扩增子图表解读、分析流程和统计绘图三部曲(21篇)》、《Nature综述:手把手教你分析菌群数据(1.8万字)》、《QIIME2中文教程(18篇)》等,关注人数5.5万+,累计阅读800万+。
了解更多
由G30资助
本演讲由G30企业提供资助,并受到民福社会福利基金会的大力支持和协助。
了解更多
图文实录

幻灯片1.JPG

首先感谢热心肠蓝总的邀请,很高兴有这次机会分享一下我从事的工作领域。

我叫刘永鑫,是来自中科院遗传发育所的一名工程师,也是大家熟悉的《宏基因组》公众号的创始人。

我今天为大家分享的主题是“微生物组分析入门指南”,希望帮助大家能够少走弯路,更好的探索我们这个领域。

幻灯片2.JPG

我认为这张图是对我进入这个领域15年的历程的一个很好总结。

我读了四年的微生物学的本科,之后又经过六年的努力,获得了生物信息学的博士学位,然后做了两年的博士后,我以为我到了一个科研的很高的高度。

这个时候,经过了12年的学习,我才发现我获得了一张入场券,让我看到微生物组这么一个有前途的领域,然后我就一头扎了进来。

幻灯片3.JPG

其实说到生物信息,不一定说你是专业的人才需要学。其实,如果你工作中涉及到数据分析,它是一个非常好的手段。

幻灯片4.JPG

我就给大家介绍一下学习生物信息的必要性,以及和它能给你带来哪些收益。

举一个简单的例子,我们高中的时候都学过孟德尔的豌豆实验,也就是遗传学的开端。

他用紫花豌豆和白花豌豆进行杂交,然后经过F1代的自交,他在后代发现了分离的现象。然后他就统计了不到1000株的后代的子代,发现了有一个3:1的花色规律。

这是在传统的遗传学当中,1000个以内的数量,我们是可以很简单的统计出它其中规律的。

而到了人类基因组时代,我们人类的基因组就有30亿个碱基,我们把它印在书上的话,我们一生都读不完这本书。

幻灯片5.JPG

你觉得人类的基因组已经很庞大了吗?其实我们人类的基因组上只有25000个左右编码基因。而我们肠道还是一个非常简单的微生物的体系,它有1000万个基因。

面对这么大的数据,我们人类是无法用简单的数理统计来处理了。我们必须借助每秒能够计算10亿次,甚至是能够达到万亿次的超级计算机,来帮助我们解析微生物组大数据。

幻灯片6.JPG

我们既然想用计算机的话,我们要对计算机有一定的了解。关于计算机,主要只有三个硬件需要我们掌握它的基本参数。

近十年,CPU的计算速度已经进入了一个瓶颈,但是现在我们是增加CPU的数量。服务器就是能够装更多的CPU,像超级计算机可能就会装载成千上万的CPU,来增加并行能力。

还有一个重要的指标是内存,我们的普通电脑,可能是4Gb、8Gb,你用来分析个微生物的多样性的数据,可能是够的。但是你如果要处理宏基因组数据的话,你可能需要有几百G甚至是几千G的内存。

最后一个重要的指标就是硬盘,一般是几百G;而服务器的话,可能一般有几TB。

特别说明一点就是,比如你手里有10 Gb的数据,你如果是想做一个分析的话,你至少要预留30倍以上的空间。尤其是在多人使用的服务器上,如果你把硬盘空间用光了的话,会让所有人的项目停掉,这是一个很危险的事。

什么是集群?集群就是把多台服务器放在机架上,并排放在一起,到时候我们需要任务,可以进行并行运算。

其实一般的科研院所和大学都有自己的计算中心,你们直接申请一个帐号,就可以方便的使用。

幻灯片7.JPG

我们如果有了服务器可以处理大数据,我们怎么去操作它?你就需要有一个顺手的工作平台,其实简单来说就是一个笔记本,它能满足我们移动办公的需求。

笔记本的屏幕一般比较小,所以我就推荐大家买一个扩展显示器,这样的话能极大提高我们的工作效率,推荐买这种28寸以上的大显示器。

幻灯片8.JPG

最后说一下,我们学习编程到底有什么意义。

举个例子,我们在生活和工作中经常会遇到很多重复的劳动,比如处理各种报表、各种统计。如果你不会编程的话,你的工作时间和你的工作量永远是成线性的。

如果你学会了程序,是什么样的呢?你可以手动的做几十条相应的工作,然后设计一个脚本,可能只需要写几十个字母或者是几行代码。

你把工作用这个脚本最后一处理,瞬间就可以把以后类似的工作都全部完成。你可以在同类的工作中节约大量的时间,这就是编程的意义。

幻灯片9.JPG

了解了生物信息学的重要性,我就再介绍一下数据分析的基本思想和基本功。因为你只有真正的能够读懂同行的东西,才是一个真正的科研的开始.

幻灯片10.JPG

微生物组学研究的主要是分为这四个步骤。

一是微生物的取样,可以从DNA、RNA甚至更多的层面取到;然后通过高通量的测序设备得到宏组学数据;我们得到数据,就要进行数据的处理,主要包括质控和定量两个部分;然后处理完的数据,我们就可以进行统计分析和可视化,从里面去挖掘一些生物学规律。

幻灯片11.JPG

我把数据分析的基本思想总结分为三步走,大家可以看这个图。

我们首先拿到的数据,一般测的数据是这种大数据,基本都是ATGC碱基,它的数量级可以达到十的九次方。

大数据我们人类是不可读的,我们要把它转化成一种大表,就是一个定量和质控的过程。

那定量和质控一般就是转化成Count Data(计数数据),就是里面第二个大表。那Count Data一般是什么?基因表达矩阵或者你的物种组成表。但它的维度还很大,可能还有十的五次方、四次方,我们人类也不可读。

然后你可以接着往下分析,进行进一步的抽提。比如我们常见的α多样性、β多样性,还有什么差异比较,其实都是把大表再抽提成一个小表。这样的话一般就是几十行、几百行,最多也不会超过千行,我们人类就可读了。

其实我们现在还是不太愿意看数字和看文字的,因为它比较累。我们喜欢把它转化成图,因为一图抵千字嘛,我就可以一眼就可以看到我们发现的规律。如果你一眼没看到,你就多看几眼。

其实这个过程的基本思想主要就涉及到两个词,一个叫做降维,一个叫做可视化。

幻灯片12.JPG

大家都清楚了生物信息分析的过程之后,我们如何实现呢?实现它就涉及到两门语言,一个就是Shell,一个是R。

我们从大数据到大表的话只能用Shell,因为Shell它是非常高效的系统的底层语言。然后从大表到小表这个阶段,因为数据也不是足够大了,我们可以用低级的Shell语言来完成,也可以用高级语言R来完成。

然后到可视化这方面,低级语言就搞不定了,就需要高级语言R来完成,R是一个比较优秀的交互可视化的语言。因为R语言也是一个生物学家开发的一门语言,它比较适合于我们生物学家来使用。

我们Shell的话,最常用的就是Xshell。大家可以看这界面,比较像《骇客帝国》里的那个场景,是吧?

幻灯片13.JPG

你看到别人敲代码、探索数据,比较花哨、比较漂亮,但其实这个过程也是需要非常强大的基本功的。你需要记住很多的代码和命令,然后跟它进行交互。

有没有一个工具能够把这两门语言整合起来,都在一个工具里来实现,你就不用去打代码,也不用复制和粘贴,直接在一个工具完成从大数据到小数据的Shell分析和R分析呢?

其实是有的,近两年来发展的RStudio就满足了我们这个需求。尤其是去年(2018年)它最新更新的1.1版,就已经整合了Shell的分析流程。

它的窗口有四个界面。第一个是代码编辑区,以前我们每个代码要不然就打上去,要不然就复制粘贴上去,现在它可以都保存,你也可以再选中、运行单行或多行的代码。

右边是环境变量区,这个变量区方便我们实时探索内存中的数据进行调试和分析,极大的提高了我们数据Debug(调试)的效率,因为我们数据分析经常会碰到很多错误,我们要进行调试。

左下角这个代码执行区,就是保留了之前的像Xshell和R中跟数据不断进行交互的过程。

右边那个数据的可视化区,我们可以实时看到分析的结果,我们也可以把这个结果方便的保存成各种的格式和各种的大小,直接用于发表就够了。

幻灯片14.JPG

你想要看懂别人的代码,还是需要学一点基本功的,最起码要学习这两门语言里中常见的几十个单词到底是什么意思。

如果你打算专门去从事数据分析,或者你每年有很多的时间要做数据分析的话,可以推荐你系统的学习两本书。

第一本是《鸟哥的私房菜》,能够系统介绍Linux系统的使用,而且还能介绍常见的Shell命令都是什么用途、什么功能。

如果你要进行R语言的统计分析和可视化的话,可以读Ggplot2的作者出的这本书,叫《数据分析与图片艺术》。

你也可以花几个小时,学习一下我和同行们编写的一些简明的教程。这可能更适合我们生物学背景的人,因为它们涉及到的只有生物信息用到的一些常见的命令,而且还有一些我们的经验和技巧在里面。

幻灯片15.JPG

我们现在有了基本功了,可以看懂同行的代码,可以进行数据分析,然后我们就开始真正的数据分析之旅。

幻灯片16.JPG

微生物组的研究方法主要就分为以上图示的这五个层面。

我们首先获得的微生物组材料,就是Microbiome(微生物组)。我们拿到了材料后,其实我们最重要应该干的一件事,而大多数人都没有干的事是什么呢?就是把材料里面的成分进行分离培养,也就是Culturomics(培养组学)方面的工作。

因为其实我们只有拿到了你研究对象里的材料,我们才能够在发现了差异之后,进行因果的验证,才能把关联的层面转移到真正的因果上,进行单因素的分析。而目前大部分的研究还处于描述阶段。

然后,最常见的工作就是我们把样本进行提DNA。

在DNA层面我们有三个常用的技术,一个是扩增子测序技术,它是基于Marker(标志物)基因的PCR就可以拿到样本。然后结合高通量测序,它可以来研究我们研究对象的微生物的多样性。

但是它的局限性,只能研究微生物多样性,我想研究更多的东西,怎么做呢?我们就一般需要测宏基因组,就是把DNA全测了,用Shotgun(鸟枪)的方法。

你可以拿到物种组成,又可以获得它的功能组成,同时还能拿到新基因,这个就很全面了。

但是宏基因组的数据量比较大,第二个问题对于宏基因组、扩增子测序都是一样的,就是对研究对象不分死活。就比如说土壤,很多都是遗迹DNA,但是它也能被测出来。

如果想研究活性物质部分,你就需要研究它的RNA层面。就把我们传统的转录组测mRNA的技术应用上来,叫宏转录组就是Metatranscriptome。

此外还有宏蛋白组和宏代谢组的层面,另外值得一提的是病毒组。

如果我们真想全面研究病毒组,你需要既把宏基因组测掉,也要把宏转录组测掉,才能拿到所有的DNA和RNA病毒。而且病毒在研究对象中的含量也是比较低的,所以你的测序量也会要求比较高,分析也会比较复杂。

幻灯片17.JPG

我们接下来就看一下一些测序仪。这是市面上用的主流的六款测序仪,我把它分成了三个时代。

一代测序就是Sanger测序。其实它是非常好的一个测序技术,它测的比较长,也比较准。

现在我们主要用的二代测序,就是赛默飞的Ion Torrent、华大基因的BGISEQ和Illumina 的Seq系列。

Ion Torrent,它是测序周期比较短,比较适合临床一些比较着急的项目。华大基因的BGISEQ的准确度和读长比较折中,它在宏基因组上有较多的应用。

最后就是Illumina 的Seq系列,它的读长有长有短,所以在扩增子和宏基因组上都有特别多的应用。如果你要测扩增子,它一般要求读长比较长,所以只有Hiseq 2500和Novaseq 6000能测P250的模式,比较适合扩增子的研究。

最后面两款是三代测序仪,一个是Pacbio,一个是Nanopore。它们的读长是有绝对的优势的,可以测到几十K甚至是几百K。

它们目前还受到测序准确度比较低,以及相应的配套软件和算法还在开发中,各种不成熟的困扰,但它们一定是明日之星。

幻灯片18.JPG

我们选择了测序平台之后,我们就来介绍一下这个领域重要的软件。

软件特别多,至少有几十款,上百款都有。但是我就挑了这三个代表性的人物,因为他们每个人都有一款近几年被引用近万次的软件。

第一款就是密苏里大学的Patrick D. Schloss开发的,叫做Mothur。

在他之前,只有极少数的实验室能够掌握扩增子的分析技术。他之前开发过叫Son、Daughter,就是儿子、女儿的各种软件,都是为扩增子开发的。

他后来开发了Mothur,把这“一家人”装在一起了,是一个完整的流程,我们可以从头到尾的分析扩增子数据。

然后在2010年的时候,Rob Knight教授也发布了一款整合了200多个软件的扩增子流程,叫做QIIME 。QIIME pipeline是真正的推动这个领域走进了寻常百姓家,QIIME目前也引用了有1.5万次。

其实这个领域有两个流程建立之后,我们可以分析了。但其实流程中的很多细节还不完善,还有待进一步开发。

这时我就介绍第三位大佬,Robert Edgar。他还不是一位教授,他也没有单位,他就坐在家里头搞科学研究,自称独立研究员,为这个领域做出了巨大的贡献。

他在2010年的时候,发布了一款Usearch的软件,就是在序列比对上特别快速,较传统的Blast方法能够快10倍到1000倍。

这个软件在扩增子和宏基因组都有较多的应用。他后来在扩增子分析的多个流程、步骤中都进行极大的改善。

比如他发明UCHIME算法,也是去嵌合体的经典算法;然后他发明UPARSE算法,也是被作为OTU聚类和代表性序列挑选的金标准;而且他后来推出了UNOISE算法,对Illumina测序的错误去噪进行了一个很好的改善。

他目前的个人引用达到了6万多次。

因为没有科研经费的支持,他就把Usearch改编成了一个有200多个功能的微生物组的分析流程,变成一个收费的软件。如果你要分析大数据的话,就可以购买他这个64位的软件。

我们现在也跟他合作,联合开发它的中文版,希望同行能更方便的使用。

因为它是收费的,如果你要没有足够的经费,没有买这个更好的软件,你可以用一个免费版。是因为有一个作者开发一个叫做Vsearch的软件,就是模仿Usearch的绝大部分功能,写了一个免费版,大家可以使用。

从2016年起,Rob Knight又发起建立QIIME2,因为QIIME1的框架已经满足不了当前的需求了。

很有幸,他也召集了我参与到这个项目中。这个项目下个月(2019年8月)就会在Nature Biotechnology正式见刊,到时候大家如果用它的话,就可以优雅地引用这个软件。

幻灯片19.JPG

上面这些软件主要是把大数据转到大表,我们的下游的统计和可视化,需要在R里来完成。其实你不用去编程,你只要使用别人现成的函数,直接可视化你的数据就可以了。

这里推荐三个比较好用的微生物领域分析的包。

一个是vegan,它在多样性分析和环境因子的关联上有很多非常成熟的函数和体系;还有一个就是phyloseq,它把进化树的信息整合进来了,你可以做比较漂亮的关于进化的探讨和一些美化;还有microbiome这个包,它在跟多组学关联还有跟表型的关联上,有一些自定义的函数可以使用。

幻灯片20.JPG

其实这些软件分析的结果可能也就是几十种,但我们在文章里会发现有上百种甚至上千种不同的分析,那它们是如何实现的呢?

你如果看见图,你不知道如何实现,怎么办呢?其实我们可以看他的文章,他发表的时候虽然没有发表一个成熟的软件,但他是把代码分享出来的,这些代码就放在Github上。

这里面,我搜集整理了一些能够分享代码的课题组,他们有很多文章都在他们的Github上面。

如果看到他们的文章有相关的分析,你也不用自己去编,用这些现成代码去直接运行一下他的测试项目,然后再稍微改改,应用到自己的课题上,可以节约大量的时间。

幻灯片21.JPG

我在两年前,经过了一年多的积累,也记了好多的笔记,我就想如果把它们分享出来,应该对同行有很多帮助,就创办了一个《宏基因组》公众号。

我坚持了两年多,每天都没有停歇。这700多天里发布了400多篇原创的文章,总共书写了200多万字,其中包括扩增子的入门的图表解读、分析流程和绘图的教程(三部曲)21篇。

还有QIIME2的官方中文文档有18篇,还有一些宏基因组的分析流程,还有300多篇相关的综述\文献解读。

目前我的公众号有五万多同行的关注,有800多万的阅读量。

幻灯片22.JPG

当时其实我只想建一个500人的圈子。

幻灯片23.JPG

结果发展两年,现在应该有了5万多人。我也见识到我们国内这个领域到底有多大。

幻灯片24.JPG

目前我们公众号有30多位国内外的同行投稿,我们现在也有一个稳定的团队和稿源。

我也欢迎广大同行分享你的经验、你的成果解读和技术方法。其实你把这个东西整理出来、发表出来之后,你从别人角度去写成一个教程的时候,你对自己的提高是特别大的。

这两年,我在这个公众号上也花费了大量时间。每年可能要花费上千小时的时间去整理这些资料。

幻灯片25.JPG

有人说,那你整理这些资料,你还有时间去做科研吗?其实这些都是用我的业余时间完成的,我的主要任务还是做科研。

工作三年,我也经历了文章投稿,被拒,就连送审都不送审;然后文章投稿,被大修;然后文章投稿,接收,这三个过程。

近一年多,我有七篇文章被接收,包括一篇Science和两篇Nature Biotechnology,累计影响因子有130多分。其中两篇文章也被选为封面文章,也是杂志社对我们分析的一个认可。

幻灯片26.JPG

我们也在想,怎么样让没有编程基础的人用好这些R语言的图,让他们更好地展示自己的数据呢?

我也和我的同行们开发了一个网站,叫ImageGP,提供R语言在线绘制。20多种常见的图,还有一些微生物常见的分析,我们都把它实现了在线化。

幻灯片27.JPG

举个例子,你把数据粘贴在这,点一下plot,就可以绘制出相应的图表。

我们将来进一步还会开放它的源代码,你可以用我们这个网站来写一个绘图的代码的框架,你在技术上可以进一步改。

幻灯片28.JPG

最后我再总结一下我这个报告的主要内容,就讲微生物组数据分析,到底我们需要掌握哪些基本思想、工作环境、基本技能以及工具选择的经验。

幻灯片29.JPG

要入门微生物组数据分析的话,我们研究的基本步骤就主要是这四个——采样、测序、数据分析和统计可视化。

我们分析的基本思想,其实就是三步走,我们要从大数据降维到大表,从大表再降维到小表,从小表再可视化成图。

我们如何来实现呢?其实你只要掌握一个软件,就是Rstudio这个软件。在这个环境里,可以管理shell的流程,可以管理R语言的统计和绘图。

而且项目是可重复的,你如果在做类似一个项目,你只要把数据一替换,点一下Run,你的同样的结果就会出来了,这是非常提高工作效率的一种工作方式。

在软件的选择上,如果你是新人刚上手的话,就推荐使用Usearch。但它是收费的,如果经费允许的话,还是建议可以购买。

如果你想使用免费版,可以使用Vsearch。你是Windows电脑、Mac电脑都可以用,它是跨平台的。

如果你是有一定基础的话,你拓展一些它没有的分析的话,你可以学习QIIME2。QIIME2只能是在Linux系统上使用。也有人用Mothur,这个我倒不是很熟悉。

在可视化方面,推荐大家必用的两个包,一个是vegan,一个是phyloseq。

我们即使找不到的一些分析方法,也可以去看文章,找那些文章中有附带代码的文章。

如果你还是看代码看得就头疼,你很讨厌代码,也没关系,现在有很多在线的平台,你可用在线平台去分析数据,然后去绘图。

但记住,在线平台在简单的同时,也在捆住了你的手脚,也限制了你分析的自由度。只有开放代码才是无所不能的。

最后推荐大家一个习惯,就是我们要养成分享和记录笔记的习惯。推荐大家用有道云笔记、为知笔记,记这种Markdown格式的电子笔记。

因为它是纯文本的,无论笔记有多多,我们都能检索。另一个就是,你学会了,你自己会用了,你把你的笔记整理成一篇教程,能够帮助同行更节约时间去学习。

把它分享在平台上帮助更多人,表面上是一个很浪费时间的工作,但其实如果你整理分享出来的话,对你自己是一个提高。你从一个学生的层面变成一个老师的层面,你的能力和各方面提高是不言而喻的。

幻灯片30.JPG

最后分享一张图,这个盲人摸象的故事,大家应该都很熟悉。

其实我这15年做科研,最大的一个感悟就是,我们做科研其实跟盲人摸象是完全一样的。

早先在单基因研究的时代,我们克隆个基因,研究个功能,说这个有什么功能,其实像盲人摸象一样,我们只能以点带面了。

但是我们现在在组学时代,我们一次测序可以拿到肠道微生物的上千万的基因。但是我们真的就是以上帝视角全面的看大象吗?其实不是的,我们仍然是盲人摸象的状态。

因为如果你测了多组学,比如你测了宏基因组,又有宏转录组,又有代谢组,你会发现不同组学之间,数据结果是不一样的,有的甚至是矛盾冲突的。

但是如果你见过这张图,你就知道每个技术只是一个看问题的角度,所以说它们是不冲突的。这样的话可以能更好地理解我们的结果。

最后,祝大家能够带着怀疑的精神去科研,勇敢地挖掘你的微生物组数据。让我们更好地探索人类和微生物的关系,让我们生活变得更美好。

最后谢谢在场的所有的老师和同学,也感谢热心肠的邀请。

谢谢大家!


往期视频
评论