肠·道 | 刘永鑫：想学菌群生物信息分析？21分钟带你入门！

想学菌群生物信息分析？21分钟带你入门！

刘永鑫 | 热心肠智库专家 2019-09-19

时长：21:43 字幕：张宇微审校：蓝灿辉

一线研究和科普专家无保留分享：菌群生物信息分析的基本思想、工作环境、基本技能以及常用软件和工具。

刘永鑫

中国农科院深圳农业基因组研究所研究员
iMeta期刊执行主编

刘永鑫，中国农科院基因组所研究员，iMeta期刊执行主编，宏基因组公众号创始人。主要研究方向为微生物组方法开发、功能挖掘和科学传播，在Science、iMeta、Nature Biotechnology、Nature Microbiology、Cell Host & Microbe等期刊发表论文50余篇，被引16000余次，入选爱思维尔全球Top 2%高被引科学家。主编《微生物组实验手册》专著，由300多位同行参与，共同打造本领域长期更新的中文百科全书。创办宏基因组公众号，16万+同行关注，累计阅读量超4千万次，打造本领域最具影响的科学传播平台，免费为您团队发布成果宣传。发起iMeta期刊，打造微生物组/生物信息领域国际顶刊，解决我本领域期刊出版卡脖子问题，建立国际学术话语权体系。兼职为Nature Communications、Microbiome、ISME、Nucleic Acids Research等50余种期刊审稿160余次。

了解更多

友情提示

本演讲仅代表讲者本人观点和立场。《肠·道》舞台百家争鸣，欢迎大家共同探讨。

由G30资助

了解更多

图文实录

幻灯片1.JPG

首先感谢热心肠蓝总的邀请，很高兴有这次机会分享一下我从事的工作领域。

我叫刘永鑫，是来自中科院遗传发育所的一名工程师，也是大家熟悉的《宏基因组》公众号的创始人。

我今天为大家分享的主题是“微生物组分析入门指南”，希望帮助大家能够少走弯路，更好的探索我们这个领域。

幻灯片2.JPG

我认为这张图是对我进入这个领域15年的历程的一个很好总结。

我读了四年的微生物学的本科，之后又经过六年的努力，获得了生物信息学的博士学位，然后做了两年的博士后，我以为我到了一个科研的很高的高度。

这个时候，经过了12年的学习，我才发现我获得了一张入场券，让我看到微生物组这么一个有前途的领域，然后我就一头扎了进来。

幻灯片3.JPG

其实说到生物信息，不一定说你是专业的人才需要学。其实，如果你工作中涉及到数据分析，它是一个非常好的手段。

幻灯片4.JPG

我就给大家介绍一下学习生物信息的必要性，以及和它能给你带来哪些收益。

举一个简单的例子，我们高中的时候都学过孟德尔的豌豆实验，也就是遗传学的开端。

他用紫花豌豆和白花豌豆进行杂交，然后经过F1代的自交，他在后代发现了分离的现象。然后他就统计了不到1000株的后代的子代，发现了有一个3:1的花色规律。

这是在传统的遗传学当中，1000个以内的数量，我们是可以很简单的统计出它其中规律的。

而到了人类基因组时代，我们人类的基因组就有30亿个碱基，我们把它印在书上的话，我们一生都读不完这本书。

幻灯片5.JPG

你觉得人类的基因组已经很庞大了吗？其实我们人类的基因组上只有25000个左右编码基因。而我们肠道还是一个非常简单的微生物的体系，它有1000万个基因。

面对这么大的数据，我们人类是无法用简单的数理统计来处理了。我们必须借助每秒能够计算10亿次，甚至是能够达到万亿次的超级计算机，来帮助我们解析微生物组大数据。

幻灯片6.JPG

我们既然想用计算机的话，我们要对计算机有一定的了解。关于计算机，主要只有三个硬件需要我们掌握它的基本参数。

近十年，CPU的计算速度已经进入了一个瓶颈，但是现在我们是增加CPU的数量。服务器就是能够装更多的CPU，像超级计算机可能就会装载成千上万的CPU，来增加并行能力。

还有一个重要的指标是内存，我们的普通电脑，可能是4Gb、8Gb，你用来分析个微生物的多样性的数据，可能是够的。但是你如果要处理宏基因组数据的话，你可能需要有几百G甚至是几千G的内存。

最后一个重要的指标就是硬盘，一般是几百G；而服务器的话，可能一般有几TB。

特别说明一点就是，比如你手里有10 Gb的数据，你如果是想做一个分析的话，你至少要预留30倍以上的空间。尤其是在多人使用的服务器上，如果你把硬盘空间用光了的话，会让所有人的项目停掉，这是一个很危险的事。

什么是集群？集群就是把多台服务器放在机架上，并排放在一起，到时候我们需要任务，可以进行并行运算。

其实一般的科研院所和大学都有自己的计算中心，你们直接申请一个帐号，就可以方便的使用。

幻灯片7.JPG

我们如果有了服务器可以处理大数据，我们怎么去操作它？你就需要有一个顺手的工作平台，其实简单来说就是一个笔记本，它能满足我们移动办公的需求。

笔记本的屏幕一般比较小，所以我就推荐大家买一个扩展显示器，这样的话能极大提高我们的工作效率，推荐买这种28寸以上的大显示器。

幻灯片8.JPG

最后说一下，我们学习编程到底有什么意义。

举个例子，我们在生活和工作中经常会遇到很多重复的劳动，比如处理各种报表、各种统计。如果你不会编程的话，你的工作时间和你的工作量永远是成线性的。

如果你学会了程序，是什么样的呢？你可以手动的做几十条相应的工作，然后设计一个脚本，可能只需要写几十个字母或者是几行代码。

你把工作用这个脚本最后一处理，瞬间就可以把以后类似的工作都全部完成。你可以在同类的工作中节约大量的时间，这就是编程的意义。

幻灯片9.JPG

了解了生物信息学的重要性，我就再介绍一下数据分析的基本思想和基本功。因为你只有真正的能够读懂同行的东西，才是一个真正的科研的开始.

幻灯片10.JPG

微生物组学研究的主要是分为这四个步骤。

一是微生物的取样，可以从DNA、RNA甚至更多的层面取到；然后通过高通量的测序设备得到宏组学数据；我们得到数据，就要进行数据的处理，主要包括质控和定量两个部分；然后处理完的数据，我们就可以进行统计分析和可视化，从里面去挖掘一些生物学规律。

幻灯片11.JPG

我把数据分析的基本思想总结分为三步走，大家可以看这个图。

我们首先拿到的数据，一般测的数据是这种大数据，基本都是ATGC碱基，它的数量级可以达到十的九次方。

大数据我们人类是不可读的，我们要把它转化成一种大表，就是一个定量和质控的过程。

那定量和质控一般就是转化成Count Data（计数数据），就是里面第二个大表。那Count Data一般是什么？基因表达矩阵或者你的物种组成表。但它的维度还很大，可能还有十的五次方、四次方，我们人类也不可读。

然后你可以接着往下分析，进行进一步的抽提。比如我们常见的α多样性、β多样性，还有什么差异比较，其实都是把大表再抽提成一个小表。这样的话一般就是几十行、几百行，最多也不会超过千行，我们人类就可读了。

其实我们现在还是不太愿意看数字和看文字的，因为它比较累。我们喜欢把它转化成图，因为一图抵千字嘛，我就可以一眼就可以看到我们发现的规律。如果你一眼没看到，你就多看几眼。

其实这个过程的基本思想主要就涉及到两个词，一个叫做降维，一个叫做可视化。

幻灯片12.JPG

大家都清楚了生物信息分析的过程之后，我们如何实现呢？实现它就涉及到两门语言，一个就是Shell，一个是R。

我们从大数据到大表的话只能用Shell，因为Shell它是非常高效的系统的底层语言。然后从大表到小表这个阶段，因为数据也不是足够大了，我们可以用低级的Shell语言来完成，也可以用高级语言R来完成。

然后到可视化这方面，低级语言就搞不定了，就需要高级语言R来完成，R是一个比较优秀的交互可视化的语言。因为R语言也是一个生物学家开发的一门语言，它比较适合于我们生物学家来使用。

我们Shell的话，最常用的就是Xshell。大家可以看这界面，比较像《骇客帝国》里的那个场景，是吧？

幻灯片13.JPG

你看到别人敲代码、探索数据，比较花哨、比较漂亮，但其实这个过程也是需要非常强大的基本功的。你需要记住很多的代码和命令，然后跟它进行交互。

有没有一个工具能够把这两门语言整合起来，都在一个工具里来实现，你就不用去打代码，也不用复制和粘贴，直接在一个工具完成从大数据到小数据的Shell分析和R分析呢？

其实是有的，近两年来发展的RStudio就满足了我们这个需求。尤其是去年（2018年）它最新更新的1.1版，就已经整合了Shell的分析流程。

它的窗口有四个界面。第一个是代码编辑区，以前我们每个代码要不然就打上去，要不然就复制粘贴上去，现在它可以都保存，你也可以再选中、运行单行或多行的代码。

右边是环境变量区，这个变量区方便我们实时探索内存中的数据进行调试和分析，极大的提高了我们数据Debug（调试）的效率，因为我们数据分析经常会碰到很多错误，我们要进行调试。

左下角这个代码执行区，就是保留了之前的像Xshell和R中跟数据不断进行交互的过程。

右边那个数据的可视化区，我们可以实时看到分析的结果，我们也可以把这个结果方便的保存成各种的格式和各种的大小，直接用于发表就够了。

幻灯片14.JPG

你想要看懂别人的代码，还是需要学一点基本功的，最起码要学习这两门语言里中常见的几十个单词到底是什么意思。

如果你打算专门去从事数据分析，或者你每年有很多的时间要做数据分析的话，可以推荐你系统的学习两本书。

第一本是《鸟哥的私房菜》，能够系统介绍Linux系统的使用，而且还能介绍常见的Shell命令都是什么用途、什么功能。

如果你要进行R语言的统计分析和可视化的话，可以读Ggplot2的作者出的这本书，叫《数据分析与图片艺术》。

你也可以花几个小时，学习一下我和同行们编写的一些简明的教程。这可能更适合我们生物学背景的人，因为它们涉及到的只有生物信息用到的一些常见的命令，而且还有一些我们的经验和技巧在里面。

幻灯片15.JPG

我们现在有了基本功了，可以看懂同行的代码，可以进行数据分析，然后我们就开始真正的数据分析之旅。

幻灯片16.JPG

微生物组的研究方法主要就分为以上图示的这五个层面。

我们首先获得的微生物组材料，就是Microbiome（微生物组）。我们拿到了材料后，其实我们最重要应该干的一件事，而大多数人都没有干的事是什么呢？就是把材料里面的成分进行分离培养，也就是Culturomics（培养组学）方面的工作。

因为其实我们只有拿到了你研究对象里的材料，我们才能够在发现了差异之后，进行因果的验证，才能把关联的层面转移到真正的因果上，进行单因素的分析。而目前大部分的研究还处于描述阶段。

然后，最常见的工作就是我们把样本进行提DNA。

在DNA层面我们有三个常用的技术，一个是扩增子测序技术，它是基于Marker（标志物）基因的PCR就可以拿到样本。然后结合高通量测序，它可以来研究我们研究对象的微生物的多样性。

但是它的局限性，只能研究微生物多样性，我想研究更多的东西，怎么做呢？我们就一般需要测宏基因组，就是把DNA全测了，用Shotgun（鸟枪）的方法。

你可以拿到物种组成，又可以获得它的功能组成，同时还能拿到新基因，这个就很全面了。

但是宏基因组的数据量比较大，第二个问题对于宏基因组、扩增子测序都是一样的，就是对研究对象不分死活。就比如说土壤，很多都是遗迹DNA，但是它也能被测出来。

如果想研究活性物质部分，你就需要研究它的RNA层面。就把我们传统的转录组测mRNA的技术应用上来，叫宏转录组就是Metatranscriptome。

此外还有宏蛋白组和宏代谢组的层面，另外值得一提的是病毒组。

如果我们真想全面研究病毒组，你需要既把宏基因组测掉，也要把宏转录组测掉，才能拿到所有的DNA和RNA病毒。而且病毒在研究对象中的含量也是比较低的，所以你的测序量也会要求比较高，分析也会比较复杂。

幻灯片17.JPG

我们接下来就看一下一些测序仪。这是市面上用的主流的六款测序仪，我把它分成了三个时代。

一代测序就是Sanger测序。其实它是非常好的一个测序技术，它测的比较长，也比较准。

现在我们主要用的二代测序，就是赛默飞的Ion Torrent、华大基因的BGISEQ和Illumina 的Seq系列。

Ion Torrent，它是测序周期比较短，比较适合临床一些比较着急的项目。华大基因的BGISEQ的准确度和读长比较折中，它在宏基因组上有较多的应用。

最后就是Illumina 的Seq系列，它的读长有长有短，所以在扩增子和宏基因组上都有特别多的应用。如果你要测扩增子，它一般要求读长比较长，所以只有Hiseq 2500和Novaseq 6000能测P250的模式，比较适合扩增子的研究。

最后面两款是三代测序仪，一个是Pacbio，一个是Nanopore。它们的读长是有绝对的优势的，可以测到几十K甚至是几百K。

它们目前还受到测序准确度比较低，以及相应的配套软件和算法还在开发中，各种不成熟的困扰，但它们一定是明日之星。

幻灯片18.JPG

我们选择了测序平台之后，我们就来介绍一下这个领域重要的软件。

软件特别多，至少有几十款，上百款都有。但是我就挑了这三个代表性的人物，因为他们每个人都有一款近几年被引用近万次的软件。

第一款就是密苏里大学的Patrick D. Schloss开发的，叫做Mothur。

在他之前，只有极少数的实验室能够掌握扩增子的分析技术。他之前开发过叫Son、Daughter，就是儿子、女儿的各种软件，都是为扩增子开发的。

他后来开发了Mothur，把这“一家人”装在一起了，是一个完整的流程，我们可以从头到尾的分析扩增子数据。

然后在2010年的时候，Rob Knight教授也发布了一款整合了200多个软件的扩增子流程，叫做QIIME 。QIIME pipeline是真正的推动这个领域走进了寻常百姓家，QIIME目前也引用了有1.5万次。

其实这个领域有两个流程建立之后，我们可以分析了。但其实流程中的很多细节还不完善，还有待进一步开发。

这时我就介绍第三位大佬，Robert Edgar。他还不是一位教授，他也没有单位，他就坐在家里头搞科学研究，自称独立研究员，为这个领域做出了巨大的贡献。

他在2010年的时候，发布了一款Usearch的软件，就是在序列比对上特别快速，较传统的Blast方法能够快10倍到1000倍。

这个软件在扩增子和宏基因组都有较多的应用。他后来在扩增子分析的多个流程、步骤中都进行极大的改善。

比如他发明UCHIME算法，也是去嵌合体的经典算法；然后他发明UPARSE算法，也是被作为OTU聚类和代表性序列挑选的金标准；而且他后来推出了UNOISE算法，对Illumina测序的错误去噪进行了一个很好的改善。

他目前的个人引用达到了6万多次。

因为没有科研经费的支持，他就把Usearch改编成了一个有200多个功能的微生物组的分析流程，变成一个收费的软件。如果你要分析大数据的话，就可以购买他这个64位的软件。

我们现在也跟他合作，联合开发它的中文版，希望同行能更方便的使用。

因为它是收费的，如果你要没有足够的经费，没有买这个更好的软件，你可以用一个免费版。是因为有一个作者开发一个叫做Vsearch的软件，就是模仿Usearch的绝大部分功能，写了一个免费版，大家可以使用。

从2016年起，Rob Knight又发起建立QIIME2，因为QIIME1的框架已经满足不了当前的需求了。

很有幸，他也召集了我参与到这个项目中。这个项目下个月（2019年8月）就会在Nature Biotechnology正式见刊，到时候大家如果用它的话，就可以优雅地引用这个软件。

幻灯片19.JPG

上面这些软件主要是把大数据转到大表，我们的下游的统计和可视化，需要在R里来完成。其实你不用去编程，你只要使用别人现成的函数，直接可视化你的数据就可以了。

这里推荐三个比较好用的微生物领域分析的包。

一个是vegan，它在多样性分析和环境因子的关联上有很多非常成熟的函数和体系；还有一个就是phyloseq，它把进化树的信息整合进来了，你可以做比较漂亮的关于进化的探讨和一些美化；还有microbiome这个包，它在跟多组学关联还有跟表型的关联上，有一些自定义的函数可以使用。

幻灯片20.JPG

其实这些软件分析的结果可能也就是几十种，但我们在文章里会发现有上百种甚至上千种不同的分析，那它们是如何实现的呢？

你如果看见图，你不知道如何实现，怎么办呢？其实我们可以看他的文章，他发表的时候虽然没有发表一个成熟的软件，但他是把代码分享出来的，这些代码就放在Github上。

这里面，我搜集整理了一些能够分享代码的课题组，他们有很多文章都在他们的Github上面。

如果看到他们的文章有相关的分析，你也不用自己去编，用这些现成代码去直接运行一下他的测试项目，然后再稍微改改，应用到自己的课题上，可以节约大量的时间。

幻灯片21.JPG

我在两年前，经过了一年多的积累，也记了好多的笔记，我就想如果把它们分享出来，应该对同行有很多帮助，就创办了一个《宏基因组》公众号。

我坚持了两年多，每天都没有停歇。这700多天里发布了400多篇原创的文章，总共书写了200多万字，其中包括扩增子的入门的图表解读、分析流程和绘图的教程（三部曲）21篇。

还有QIIME2的官方中文文档有18篇，还有一些宏基因组的分析流程，还有300多篇相关的综述\文献解读。

目前我的公众号有五万多同行的关注，有800多万的阅读量。

幻灯片22.JPG

当时其实我只想建一个500人的圈子。

幻灯片23.JPG

结果发展两年，现在应该有了5万多人。我也见识到我们国内这个领域到底有多大。

幻灯片24.JPG

目前我们公众号有30多位国内外的同行投稿，我们现在也有一个稳定的团队和稿源。

我也欢迎广大同行分享你的经验、你的成果解读和技术方法。其实你把这个东西整理出来、发表出来之后，你从别人角度去写成一个教程的时候，你对自己的提高是特别大的。

这两年，我在这个公众号上也花费了大量时间。每年可能要花费上千小时的时间去整理这些资料。

幻灯片25.JPG

有人说，那你整理这些资料，你还有时间去做科研吗？其实这些都是用我的业余时间完成的，我的主要任务还是做科研。

工作三年，我也经历了文章投稿，被拒，就连送审都不送审；然后文章投稿，被大修；然后文章投稿，接收，这三个过程。

近一年多，我有七篇文章被接收，包括一篇Science和两篇Nature Biotechnology，累计影响因子有130多分。其中两篇文章也被选为封面文章，也是杂志社对我们分析的一个认可。

幻灯片26.JPG

我们也在想，怎么样让没有编程基础的人用好这些R语言的图，让他们更好地展示自己的数据呢？

我也和我的同行们开发了一个网站，叫ImageGP，提供R语言在线绘制。20多种常见的图，还有一些微生物常见的分析，我们都把它实现了在线化。

幻灯片27.JPG

举个例子，你把数据粘贴在这，点一下plot，就可以绘制出相应的图表。

我们将来进一步还会开放它的源代码，你可以用我们这个网站来写一个绘图的代码的框架，你在技术上可以进一步改。

幻灯片28.JPG

最后我再总结一下我这个报告的主要内容，就讲微生物组数据分析，到底我们需要掌握哪些基本思想、工作环境、基本技能以及工具选择的经验。

幻灯片29.JPG

要入门微生物组数据分析的话，我们研究的基本步骤就主要是这四个——采样、测序、数据分析和统计可视化。

我们分析的基本思想，其实就是三步走，我们要从大数据降维到大表，从大表再降维到小表，从小表再可视化成图。

我们如何来实现呢？其实你只要掌握一个软件，就是Rstudio这个软件。在这个环境里，可以管理shell的流程，可以管理R语言的统计和绘图。

而且项目是可重复的，你如果在做类似一个项目，你只要把数据一替换，点一下Run，你的同样的结果就会出来了，这是非常提高工作效率的一种工作方式。

在软件的选择上，如果你是新人刚上手的话，就推荐使用Usearch。但它是收费的，如果经费允许的话，还是建议可以购买。

如果你想使用免费版，可以使用Vsearch。你是Windows电脑、Mac电脑都可以用，它是跨平台的。

如果你是有一定基础的话，你拓展一些它没有的分析的话，你可以学习QIIME2。QIIME2只能是在Linux系统上使用。也有人用Mothur，这个我倒不是很熟悉。

在可视化方面，推荐大家必用的两个包，一个是vegan，一个是phyloseq。

我们即使找不到的一些分析方法，也可以去看文章，找那些文章中有附带代码的文章。

如果你还是看代码看得就头疼，你很讨厌代码，也没关系，现在有很多在线的平台，你可用在线平台去分析数据，然后去绘图。

但记住，在线平台在简单的同时，也在捆住了你的手脚，也限制了你分析的自由度。只有开放代码才是无所不能的。

最后推荐大家一个习惯，就是我们要养成分享和记录笔记的习惯。推荐大家用有道云笔记、为知笔记，记这种Markdown格式的电子笔记。

因为它是纯文本的，无论笔记有多多，我们都能检索。另一个就是，你学会了，你自己会用了，你把你的笔记整理成一篇教程，能够帮助同行更节约时间去学习。

把它分享在平台上帮助更多人，表面上是一个很浪费时间的工作，但其实如果你整理分享出来的话，对你自己是一个提高。你从一个学生的层面变成一个老师的层面，你的能力和各方面提高是不言而喻的。

幻灯片30.JPG

最后分享一张图，这个盲人摸象的故事，大家应该都很熟悉。

其实我这15年做科研，最大的一个感悟就是，我们做科研其实跟盲人摸象是完全一样的。

早先在单基因研究的时代，我们克隆个基因，研究个功能，说这个有什么功能，其实像盲人摸象一样，我们只能以点带面了。

但是我们现在在组学时代，我们一次测序可以拿到肠道微生物的上千万的基因。但是我们真的就是以上帝视角全面的看大象吗？其实不是的，我们仍然是盲人摸象的状态。

因为如果你测了多组学，比如你测了宏基因组，又有宏转录组，又有代谢组，你会发现不同组学之间，数据结果是不一样的，有的甚至是矛盾冲突的。

但是如果你见过这张图，你就知道每个技术只是一个看问题的角度，所以说它们是不冲突的。这样的话可以能更好地理解我们的结果。

最后，祝大家能够带着怀疑的精神去科研，勇敢地挖掘你的微生物组数据。让我们更好地探索人类和微生物的关系，让我们生活变得更美好。

最后谢谢在场的所有的老师和同学，也感谢热心肠的邀请。

谢谢大家！

往期视频

人体微生物天然小分子

微生物可利用食物或代谢协同产生新的小分子，也可经简单的分子模块形成复杂的活性小分子，影响人体健康。

2024-02-29

特别推荐| 8分钟重温2023年《肠·道》演讲金句

2024年初，热心肠研究院携手30位产学研专家倾情巨献！

2024-02-08

预防骨骼肌衰老新靶点

肠道菌群紊乱可诱发肌卫星细胞活化，肠道菌群来源代谢产物丁酸，在调控骨骼肌干细胞稳态过程中扮演重要角色。

2024-01-18