如果我们能够构建这样的数据,我们就能够打开一把锁,开启一个全新的世界。
造就Talk第226位讲者:陈钢
WeGene联合创始人、CTO
大家下午好,我是陈钢,很高兴再次来到造就Talk,和大家分享关于基因的那些事。
我们每个人都是一个数据包,大家可以想象一个比较极端的情况,如果把人的每一个原子和分子的数据都记录下来,那会是什么情况?
曾经真的有人去计算这件事情,他得到的结论是,如果用普通U盘把人的这些数据都记录下来,大概需要塞满整艘泰坦尼克号,像本人这样一位二百斤重的胖子,那就需要两艘泰坦尼克了。
总之,这个数据量非常大。
每个人都是条字符串
每个人都是从受精卵、胚胎逐渐发育起来的,所以大自然究竟是怎么做的,把这么庞大的数据在人类代际之间传递下去?
现在我们都知道,这都是基因组在起作用。大自然把那些信息都塞进了22对染色体和两条新染色体及线粒体里,编排成一个31.61亿长的字符串,准确来说是60几亿个字符,我们人体的很多信息就囊括在这些字符串里。
那么,这样的基因组里究竟储存了哪些信息?我来举个例子,基因组里分了很多染色体,这里有个19号染色体,上面有很多基因,其中有一个基因备受关注。
我曾在香港中文大学图书馆里看过一本该校前任校长高锟的个人自传。高锟因发明光纤而获得了诺贝尔物理学奖,所以他无疑是这个世界上最聪明的那波人中间的一个。
但就是这么聪明的一个人,却因为患上阿尔茨海默症,即老年痴呆,而导致身体各项机能逐渐衰弱。他可以获得世界上最好的医疗服务,但最后还是因这个病而去世。
在看他的自传时我就在想,我会不会得老年痴呆这个病呢?得益于过去多年对人类基因组的研究,现在我可以预测出自己罹患该疾病的可能性。
我们发现,在19号染色体上面有一个叫APOE的基因,它会编码一个叫载脂蛋白E的蛋白,该蛋白会影响我们很多生理功能,在它上面有一个突变位点。
在人类基因组上面,每一个突变位点都有一个编号,经过过去多年研究,科学家在RS那串数字上发现了很重要又很有趣的事情。
如果该位点上面是CC,意味着这个人在75岁时患老年痴呆的风险比一般人要高出20~30倍。我也检测了自己的情况,我处于CT阶段,携带了一个突变,当我75岁时,我得老年痴呆的概率会比正常人高出4倍。
今年4月,FDA已经批准了这项基因检测,每个人都可以去测自己的位点,从而得出自己是否会罹患老年痴呆的信息。
我们身体里的尼安德特人
回到整个基因组,遗传学家发现在基因组上有很多这样的位点,它们都跟各种各样的疾病或者人体性状有关,例如人眼的颜色。
这里有一件很有趣的事,大家看这个人,他跟我们算是远亲,但又跟我们不是同一个物种。他们被欧洲人称为尼安德特人。大概在十二万年前到两万年前,他们曾是欧洲大陆最主要的两足直立动物,但在两万年前灭绝了。
他们的历史很有趣,他们也和我们现代智人的祖先一样是从非洲迁出来,就像我们以为北京人是我们的祖先一样,欧洲人原来也以为尼安德特人是他们的祖先,不过这些论断现在都被否定了。
人们在山洞里发现了尼安德特人的遗骸,通过对遗骸的骨头进行反复研磨,提取出尼安德特人的基因组,再经过净化处理,最后发现他们跟我们现代智人并没有直接的祖辈关系。
同时,科学家也发现了一件很有趣的事,除了非洲以外,世界上所有其他人类的基因组里有1%~4%的基因组织来自尼安德特人。换言之,当我们的祖先在六七万年前从非洲迁出时,他们进入欧洲后还跟尼安德特人发生了一些事情。
根据多年的研究发现,我们对尼古丁成瘾的易感程度、患抑郁症的风险都跟尼安德特人传给我们的这些基因有关。那么,我们的基因组里,到底会有多少比例的基因来自于尼安德特人呢?这是可以计算出来的。
我们发现,亚洲人遗传尼安德特人基因的比例会高一点,而非洲人几乎为零,所以基因组里实际上蕴含了非常多的信息。每个人的信息,都被编码在了基因组里。
那么接下来又会产生一个疑问,既然我们有了这么多的人类基因组数据,又可以测出众多表型信息,例如对药物的不良反应、眼睛的大小,那我们能不能找到,到底基因上的什么东西跟这些事情有关呢?这是我们一直在试图解决的问题。
值得庆幸的是,这样的技术已经被广泛使用。2005年《科学》杂志上曾发表的一篇论文提出一个叫全基因组关联分析的方法,大概逻辑是说,假设现在有一波人来自蓝血星,是蓝色的,还有一波人是白色的,到底是基因组上的什么因素导致了两个人群的差异。
通过整合他们的信息,我们可以测出这两群人的基因组,我们发现蓝色这群人在红色处的突变很多,而白色处却很少见,所以我们知道这个位点肯定跟蓝白这两群人的差异有关。
这样的方法实际上是统计学的方法,通过对比差异及相关性找出疾病治疗方案。2005年医学上第一次成功解决了“老年性黄斑病变”的疾病治疗,该病变多发于55岁以上的老年人,他们会随着年龄增长视力迅速衰退。
大家看这张图会发现,为什么有些蓝色的人没有突变,而有些白色的人会有。全基因组关联分析找的是相关性而非因果关系,我们也只能知道位置的相关性,而不能预测出表型信息。
但现在,随着近些年计算机、机器学习、人工智能的发展,我们有办法来做这样的事。我们有了基因组数据,可以推测出表型信息。换句话说就是,我有了你的基因组,我可以知道你是什么样子的。
还原人类数据包
机器学习技术正在帮助我们解决这些事情,当我们有了足够多的数据,我们可以构建这样的模型。那么,用基因组去预测人的表型能做到什么程度?我们来做一个最简单的表型,看看哪些因素会影响身高。
照片中的这个小姑娘,我知道她以后的身高会长得比在座各位都高,原因很简单,她是姚明的女儿,遗传使然。
欧洲人曾在十几年前做过一次研究,他们发现身高在一定程度上受遗传的影响,欧洲人的遗传度是0.8,亚洲人是0.4到0.6,这些值都挺高,我们常见的肿瘤的遗传度都没这么高。
如果我有几千人的身高数据甚至是基因组数据,我能够去算出这个人的成年身高。
这是我们在几千人身上做的测试,精确度还不错,图中分别是用户自己报告的成年身高数据以及我们用基因组算出来的数据。
这是我们在几千人身上做的测试,精确度还不错,图中分别是用户自己报告的成年身高数据以及我们用基因组算出来的数据。
大家可以从图上看到两团数据,主要是男性和女性的差异。同时,我们还发现,预测80后人群的身高准确度会比预测老一辈的精确度更高,整体误差小于5公分。因为老一辈人年轻时很多人吃不饱饭,身高受到营养问题的影响。
那我们有没有可能去做更复杂的表型预测?不仅仅是身高,还有人脸的模样。
通过面部识别,我们可以从面部抽取出非常多的特征,这每一个特征都是一个数字。如果我能够构建出基因组和这些特征之间的关系,那我就可以去重建一张人脸。
前不久,《Peanuts》杂志上发表了一篇论文,讨论我们如何做成3D人脸。我们可以从图中看到,右侧的脸是用计算机根据基因组预测出来的,而左边的脸是真实的3D扫描结果。
简而言之,我们测出一个人的基因组就可以把他的人脸画出来。除此之外,人的声音、说话腔调、频率等也受基因组影响。这类事情我们以后还可以预测的更多。
大自然把两艘泰坦尼克的数据塞到几十亿个字符里,然后我们试图去把这几十亿个字符给还原出来。我们已经能够做到从基因组预测各种各样的表型,我们已经构建起了表型和基因组之间的关系。
看面相算基因
但接下来出现了一个更有趣的问题,我能不能把这个箭头反过来?我如果有了一个人的表型,是不是能够预测出他在基因组上的情况?
如果大家做过基因组检测,会得到这样一个检测数据,里面有你的染色体、基因组,可以算出你的血缘里有多少比例是什么人,是南方汉族还是北方汉族,少数民族百分比是多少,进而还可以推测出你的脸长什么样。
我们现在想办法把这个图反过来 ,根据这张脸的照片去推算组员情况,不仅仅是身高、长相、声音,还可以是其他目前看上去跟我们没太大关系的事情。
我们已经建立起基因组和各种各样表型信息之间的关系,利用机器学习的方法也可以起到双向作用,不仅可以正面来,也可以反过去。有了足够多的基因组数据及表型数据,我们可以用机器学习及人工智能的方法,构建起其中的相互关系。
当我们去预测药物的治疗效果及药物的不良反应,去寻找每个人精准的治疗方案、最佳运动和生活方式时,我们都需要这样的预测手段。
反过来,当我们知道一个人的表型信息时,我们可以从他的基因去预测看看他是否会罹患某种罕见病。
很多罕见病都是遗传病,当我们发现一个小孩有这样的症状时,我们可以去检测他的基因,从而找到最佳治疗方案。
打开一个全新的世界
每个人的信息都被编码在了基因组里,我们要做的所有预测都依赖于大数据。我们可以很容易看到电商消费的数据,但我们比较难看到基因组数据,因为那需要每个人都贡献出自己的样品。
仅仅只有基因组数据,还不足以构建模型去解决医学上的问题,去理解我们的生命,我们的历史。我们还需要各种各样的表型信息,希望每个人都能贡献出这样的数据,参与研究,推动医学等领域的进步。
当然这里面也涉及数据安全的问题。
如果我们能够构建这样的数据,我们就能够打开一把锁,开启一个全新的世界。我们可以用基因组数据加上其他数据,一起建立起我们对生命、对医疗、对健康的全新认识。
另一方面,我们也需要一把锁来保障数据安全。我们现在可以做到的是,当你回到家,用你出了汗的手去转门把手,我们可以根据你在门把手上留下的脱落细胞皮脂来提取DNA,从而模拟出你的模样、身高、甚至预测出年龄。
所以,一方面,我们确实需要每个人的基因组数据及表型数据;另一方面,我们也需要投入更多的精力去确保这些数据的安全、可控。
所有技术的进步都是一把双刃剑,我相信只要每个人参与其中,无论是贡献数据还是参与数据的开发及保护,最终我们都会以自己的力量去打开这把锁,找到新的力量,推开一个新的世界。
谢谢大家!