当前位置:主页 > 新闻 > 信息科学 > 正文
中国科学家引入信息论
来源:未知     作者:admin      2017-12-30 11:25       
  自从Alpha Go成了围棋界的No.1,“智能”的潜力被广而周知,尤其对于大量的重复性工作,写个“算法”让电脑“跑”,得出的结果说不定比人强。
 
  科学家不仅有足够大的脑洞,还有着非凡的执行力。这次是生物学者,他们借鉴了信息学科的思维,发明了基因测序的新方法。日前,一篇名为《基于信息理论来修正错误的高准确度荧光产生DNA测序方法》的论文在《自然·生物技术》上在线发表。研究者来自北京大学黄岩谊教授带领的团队。
 
  “这个设计很巧妙,”东南大学教授陆祖宏说,“或许在信息科学里是‘小伎俩’,但在生物学研究中是一种思维方式的突破,而且奏效了。”
 
  测序精准是“王道”
 
  和体育界的“更快、更高、更远”类似,基因测序界的“金标准”是“更快、更长、更正确、还不贵”。
 
  大名鼎鼎的“人类基因组计划”基于1代测序技术,耗时十余年测出一套完整的人类基因组密码,而利用现有的2代测序技术,这个时间可以缩短到半天内。
 
  “2代测序技术,又叫高通量测序技术,”陆祖宏介绍,它能够在一个生物芯片上一次完成上亿个反应。“每个反应一次测定一个碱基。”
 
  生物芯片上的反应单元非常小,几平方微米的芯片上会包含1000个待测DNA单链分子,在DNA聚合酶(促成单个碱基聚合)的作用下,单个碱基会按照配对规律合成已有DNA分子的互补链,每次合成一个,同时释放出荧光。不同的碱基(A、T、C、G)带有不同的荧光,检测到荧光的不同就能判断是什么碱基,进而读取DNA。
 
  然而,每个单元中1000个分子的合成很难同步,“这个分子合成到99个时,那个分子可能合成到101个,这样捕捉到的荧光波长将会有所差异,可信度显著下降,”陆祖宏说,因此,2代基因测序仪的单次“读长”目前的极限在200个碱基对(bp)。通过DNA二端测序能做到400个bp,但很难进一步提高。读得越长,测得序列的正确性就会越低。
 
  在人体基因测序领域,这是一对相差悬殊的数字:30亿、200。前者是人类基因组的碱基对数量,后者是目前测序准确度最高(99%)的2代基因测序仪的单次“读长”。可见以200为单位完成目标DNA的测序,不可避免会造成大量的误差。
 
  测序技术正在向着满足“金标准”的路上不断推进,而此次我国学者发表的ECC(纠错编码)测序法正是对现有手段的校正和补充。