[音乐] 好了,你如何去评价这个最简约的树
你如何去评价一棵树到底是不是很符合这个真实的情况的呢?
你是可以做一些事儿的。有一种方法就是用统计学的方法
用的比较多的叫bootstrap。这其实就是统计学里面的一种方法
这个中文有的把它叫做靴带法,这个就是靴带的意思 它是怎么做呢?
就比如说,我有30个物种 我有一条基因的序列是1000个kb
我是可以把它排成30×1000的 矩阵的。对吧
然后我可以用这个矩阵,去做一棵树,得到一棵树
那么这个靴带法呢?就是说我到30×1000的矩阵里面
去随机取样,我一次拿一条出来 拿一个物种的1000个放在这,我再拿一条出来,我是可以重复取样的
我每做一个新的矩阵,就是做成一个3×1000
我做上100个,是吧 我重抽100次,就得到100个这样的矩阵
我让每一个矩阵都产生一棵树 然后我把这100棵树去比较去。比较什么?
比较这个分支 它的式样,待会儿下面我这个要给你看
这个地方就给你们几个数值,就说如果 这个树的分枝的式样
是100棵树里面有70棵都是这样的话,也就是bootstrap value
bootstrap值就是70% 如果它只有50个是这样的一个式样,它就是50%
当然有好的情况底下,你100棵树 100个都是这样的一个分子式样那就是100%,你这个
bootstrap value越高,就是这样一分支的式样
支持率就越高,比如说这是一棵树 我得出来,得到了这样一个关系,这样一棵树
这个地方它告诉你100%,也就是说,在你 重新抽样的那100个矩阵里面,做出来的100棵树里头
有100棵。所有的这个树 都是这个地方是这种分支。所以你就说:“啊,这种分支其实很可靠”
如果这个地方是 75%的话,你也觉得这个分支是挺可靠的
当然55%就算是比较低的,我们一般把70%作为一个 分水岭一样的
就说大于70%的,我们都觉得比较可靠。小于70%你要掂量掂量,到了50%了
就是它可以到处跑 它可以在别的地方,只有一半的机会是这样的一种分布
其他的情况的底下它都在别的地方,那么还有的,就根本都没有给你
这种就是很低了,一般来说他在做一个树的时候,他会告诉你
我低于50%的,上面就不写,不写这个数字了 其实就是告诉你这个分支不太可靠
所以这个是一种检测你这棵树是否可靠的办法 你就是用统计学的方法,bootstrap用的最多的
你去随机地做出来不同的矩阵,然后你做树,然后你就去看 这个bootstrap
value,它的每个分支点的支持率 这是统计学的方法
还有一个呢?其实建树的方法也有好几种 它们的原理不太一样
距离法是比较简单的。就说你把它之间的不同 给它算出来,然后最终把它变成一个数值
那么它的差异越小的话亲缘关系就越近 所以这个用距离法呢,就说你用数学的方法去进行聚类
这个是最简单的。就是我们那时候,第一个想做的就是用
这个就是距离法去做,因为它涉及到的算法比较简单 他计算的时间也短,好了
简约法。这跟你们说过,其实它就是基于简约性的原则
这你这个建出来的树,他所要走的这个步骤越少
这棵树就越接近真实,这是简约法做出来的树
还有一个叫最大似然法,这个其实是一种算法
它是其实用的这个数的,对数值,还是? 如果我记得没错的话
如果这个对数值越大的话,就说明这个树越真实 还有一个叫贝斯法,用的后验概率
这些都是统计学里面的一些词儿 这个地方是不需要你们掌握的 你们就知道现在比较流行的就是这几种方法
距离法,简约法,最大似然法和贝斯法 其实这个简约法、最大似然法和贝斯法的话
他都是要有一个目标函数的,他跟距离法不一样
距离法很简单,就是简单的算术。这3种方法里头
这个目标函数它是用来计算、测量这个树与数据的配合的程度
它是要看这个数的分数的,在简约法里面,这个数的分值越低越好
在最大似然法里面,这个数的分值越高越好 所以这个你就可以看出来,其实它背后的原理啊
这些假设都不太一样,所以如果说你的数据很好的话
你不管用哪个方法做出来的话,它的拓扑结构 它的那些关系都差不太多
如果你有一套数据 你用这几种方法做出来,每一样都告诉你不一样的结果
你就要在心里掂量一下了哈,你的数据可能有点问题 他们不至于差的太多
这就是要提醒大家一下,这个其实 我在有一次讲分子演化的时候,给过你们两个网站
那个两个网站里头,它的软件包里这些算法都有
你们是可以去参考一下,就是你真的感兴趣的话 可以去上那个网站去练练手
这个你们就知道一下,就是做树,还有这么多不同的方法
他们这些方法背后的假设啊,它的这种算法啊,它的模型啊
不太一样就行了。这个如果你说 顾老师,我很想知道他背后的,到底是什么算法呀?到底是什么假设呀
我可以推荐给你们一些文献你们去看一下,但作为大家一般了解就够了
我不会要求你们去算的。刚才讲的鲸的那个故事 我们刚才用的就是最大似然法做的
那么你还可以用距离法来做这个树 就是拿同样的数据,我用距离法来做 你看得到结果是不是一样的?
一模一样。也就说这套数据非常好,你做出来,不管你用什么方法做?你其实得到的结果都一样
对吧,也还是这样同样的关系。所以说
你一套数据来了,你怎样去评价最后得到这个树的好坏呢?
这个好坏就是说它是不是真实的反映了一个现实情况 或者比较接近现实情况呢?
你可以用不同的方法做一下 你要用统计学的方法去检测一下 这是比较有意思的了
就是有根树,诉我们一些什么东西 经常有同学拿一棵树来说
顾老师,你给我解释一下这是啥意思 就是你听了我今天这个内容,拿到一棵树,你基本上是会看的
你可以从这棵树里面得到一些基本的信息 首先它会告诉你,你所研究的这些生物类群
是不是来自一个共同的祖先,或者这棵树里面是否包含了
同一个祖先所有的后代。这很抽象,我们会具体地来看一些例子
也就是说这个树是不是一个单系的类群
就说什么叫单系类群呢?就是来自同一个最近祖先的,全部后代
画一棵树,如果你研究的这个1、2、3、4、5这些类群 你做出来一棵树是这样的
哎,我说,ok,这是一个单系类群。是吧,它所有的
都在这棵树里头,然后1、2、3、4、5,它们共同的最近的祖先,在这个地方,在这个节点
所以这就是一个monophyletic group。还有一个叫并系类群。
它们是来自一个最近的共同祖先 但是没有包括所有的后代。什么意思呢?画一棵树
画这样的一棵树,你可以看到 你研究的如果是2、3、4、5
那2、3、4、5其实就是一个并系的类群 它们的共同祖先在哪儿?在这个地方,对吧?
2、3、4、5有没有包括这个共同祖先的所有后代?
有没有?跟着我走啊,有没有? 没有,OK,缺了一个1
所以2、3、4、5就组成了一个并系类群 它确实是来自一个共同的最近的祖先,但它没有包括所有的后代
还有一个叫多系类群,并系跟多系
有点类似,比较难区分
并系类群就说,它们都来自于,都是不同的这个最近的祖先的后代
刚才我们看到的2、3、4、5还是来自一个最近的共同祖先对不对?
而多系的话,它们是来自于不同的最近的共同祖先,画一个图
1和5,这就是多系类群
看到吧,1,它的最近的共同祖先是和谁共享的?
是和2,5是和4 所以这两个都有不同的最近的共同祖先
所以1和5的关系,是多系的关系 下面我还要讲啊,必须跟着我啊,那个
这也其实是我要考你们的重点,这个你学了我的演化课,多系、并系、单系要能
要能够看,要会看,讲一个实例
这就是鸟、鳄鱼、蛇、鳖和乌龟,我们 这样一个图,这是一个演化树
亲缘关系图,这是乌龟和鳖在这儿,这是蛇、蜥蜴在这儿,这是鳄鱼,这是鸟,是这样一张图
所以我要问你,鸟、鳄鱼
蛇、蜥蜴、乌龟和鳖的话,它们是不是一个单系类群? 单系类群。好,现在有一个词儿
叫爬行类 爬行类就没鸟了啊,鸟不能叫爬行类
所以爬行类是个什么类群的?(同学:并系) 非常好,
这个就很简单,这个看起来很简单 它是一个并系类群。这就是
你看嘛,对吧,它把这个鸟给落了。并系的一般就会落这么 几个,这样的这个共同祖先的后代
因为这是它们的共同祖先,是吧,打了这个绿框框的,这个地方是它们的共同祖先
好了,刚才是单系、并系和多系。这个树还可以告诉你什么个 信息呢?告诉你们物种形成的顺序
但这棵树必须是一棵有根树,你可以从有根树里面看到很多信息的
有根树它一般会给你一个bar在下面 这个bar有几层意思
它一个是差异的程度,就是距离
如果它是分子的话,这个里面就比如说是几个碱基的差异的什么的,就在这个下面
这个尺度告诉你,它还有一个就是分歧的时间 也可以是分歧的时间的,比如
这个地方是白垩纪啊,这个地方就是不同的时代了 这都是有含义的,这个下面的这个bar
是差异或者是分化的时间 它这个每一个节点,我们把这个地方叫不同的节点
每一个节点其实都有含义的 它是代表了这些类群,或者物种
分化的时间点,就是在这个点上 如果下面是时间的话,你可以大概看一下,在什么时候
这两个类群,这个类群和这个类群 发生了分化了,这是告诉你很重要的节点
然后一般这个树,你看,它有的时候整个的这个 树的结构它会upside
down,它可以把它,这个倒无所谓,在上在下没有关系 其实是要看它分支的式样,最先分出来的这些
一般都是外类群 它是一棵,记住啊它是一棵有根树,它一定要有外类群
外类群总是在最先分出来的 这是这个外类群,外类群可以是一个类群
一个物种,也可以是多个类群、多个物种 比如说裸子植物,我刚才说的,
你做被子植物演化的时候,你拿裸子植物来做外类群 一般我们都要拿好几个物种,松树啊、杉树啊、这个柏树啊
还有铁树啊,这些都可以拿来做外类群,有的时候我们会放好几个物种
比如说这是外类群,然后所有上面的都是你所研究的这个类群了
最早分出来的,我们把它叫做基部类群 英文叫basal group,这个一般basal
group我们都觉得它是比较古老的,因为你看嘛 它是最早,如果这个是时间的话,它是最早分化出来的一个类群
所以叫基部类群,也就是说它代表了一类你所研究的类群里面比较古老的
而在这些最近分支的地方 这都是最新形成的一个类群,比较年轻的
所以这个树的话,你要看它这些分支,它都有含义的
这一定是有根树啊,我再强调一遍。所以这个其实是信息比较多了,是吧
你可以看它的距离、时间,就看它是给你的什么了
然后你还可以看到它的一些物种分化出来的顺序 谁是古老的,谁是比较年轻的
这是你可以看得出来,它的这个物种形成的顺序的
其实就是裸子植物,大家就觉得,哎哟这是很古老的一个类群了
其实裸子植物的很多物种,都是比较新近形成的
它不是在侏罗纪就有了,在白垩纪就有了,除了像银杏这样的,人们称作“活化石”的
有很多类群它其实,你要看它的树的话,也会在这个很近的这个分支的地方看到一些物种
再考你们一下 我打了这个圆括号的这个地方,这三个类群
它们的共同祖先在这儿,问你们它的单系的、多系的、并系的?单系的举个手
并系咧?没有 还是不好意思,我听到有人说并系。这是单系,你看啊
这是它们最近的共同祖先,然后它们所有的后代都在里头
OK?这是单系,再往下看,再考你们一下
好,1、2、3、4、5、6,这六个类群
是什么,是单系、并系还是多系?(同学:并系)非常好
它们的共同祖先就在这儿 你看,你要把它放进来的话,你落了两个呢!
是吧,你没有把它们所有后代都包括进来,所以这个画的这个大括号的这个
就是个并系,你再往下看啊,打红点点的这几个 这几个呢?(同学:多系)行
你多系类群,因为它们,你看啊,它们其实是这三个是共同祖先在这儿
对吧,这一个你要追 它们的共同祖先就跑这儿来了,那么这个就更远了,跑到这儿来了
所以这是很清楚的一个多系类群 所以这棵树上,
其实你也可以看到一些单系、多系啊,你要看这树上不同类群的话
你也可以推断是单系、多系还是并系,这个给你们的信息就比较多了
还有就是物种之间的相互关系
这个也是个有根树,其实相互关系的话不一定要有根树,是吧,它相对的 这是一个亲缘关系比较近的,我们把它叫做A类
如果这有一个B类的话 那么A类跟B类的关系就是属于比较近
对吧,如果你再往下走呢,C类的话,那么A类跟C类的关系就比较远
这是一个相对的,就是说,亲缘关系其实就是一个相对的 所以你也可以看它们之间的亲缘关系的远近