“呦呵,那海总您要保重啊,再过几个月,你和最初的你说不定就生殖隔离了!”
对方的脸上飘过一丝无奈,“我正好要找你,我们正在建立数据集,需要我尽可能多的基因组数据。2年前你跑到我公司揪下来的我的头发,还有没有?”
卢赫转了转眼珠,“没了,不过我可能还有测序结果,在我家里放着。”
“放哪里了,我让人去取一下。”对方语气惊喜。
“没必要。”卢赫回忆起往事,“我当初从你头发里提了三组基因,分别寄给三个公司测序,其中就有你们公司。你调下数据就行。”
“找过了,没有。可能大停电的时候,损失了。”
卢赫无奈道:“我能先问下你们目前是什么思路吗?你要搞机器学习?那种不可解释的黑箱,有用吗?”
对方点头认可,“没错,我们就是要做机器学习,而且是具备可解释性的小样本机器学习。至于你说的黑箱,就算有些方法是黑箱,但好用就行了。
你们之前用的CRISPR脱靶分析软件,其实就用了这种技术。那是巨硬亚洲研究院前几年的成果。
他们建立了一个大型的数据集,记录了与给定的向导RNA有一项核苷酸不匹配的所有可能的标靶区域里发生的脱靶活动。
然后把数据喂给了一个两个隐藏层的神经网络,训练出了一个可以输出所有潜在脱靶位点的模型。这是一个生成模型,可以得到每个脱靶位点的概率,据此计算脱靶评分。”
“太普通了,这只是实现了一个二线工具,还有没有更惊艳的?”卢赫追问。
“有。
非同源末端连接机制还记得吧?剪刀剪完基因序列后,不管三七二十一直接把断裂的基因给粘起来。
这种方式并不常用,一般都是用同源模板修复。一方面是剪的时候可能剪了不止一个地方,粘的时候却可能只粘了其中一个。另一方面是细胞不乐意了直接就不粘了。
但有团队利用机器学习算法准确地预测到了细胞容易修复的基因位点,并用CRISPR和非同源末端连接治了病。
为了探索具有代表性的人类基因组序列的修复产物,他们设计了一千多个目标位点,特征是向导RNA和靶标基因,标签是非同源末端连接最终起了修复作用位点。
数据喂给了一个看起来结构很复杂的模型,训练结果很是喜人,模型对11%的向导RNA的修复位点的预测准确率在50%以上。
意味着这些向导RNA和相应靶标基因所对应的疾病,可以用这种方式来治疗。