QB期刊 | 纪念HGP20周年系列文章3：陈润生院士回顾我国早期生物信息学的发展...

转载

wx643df9f1afa1d 2023-05-08 00:18:27

文章标签 人工智能大数据机器学习编程语言 java 文章分类 HarmonyOS 后端开发

QB期刊 | 纪念HGP20周年系列文章3：陈润生院士回顾我国早期生物信息学的发展..._人工智能

2021年是人类基因组草图公布的20周年，QB期刊非常荣幸地邀请到了一批曾在人类基因组计划（HGP）中发挥重要作用并做出突出贡献、或见证HGP重大进展和影响的杰出科学家，为大家分享HGP背后的故事。我们相信这些故事不仅可以带给大家很多见解，也可以为定量生物学未来的发展提供启示。在QB2021年第1期中，QB编辑部分别邀请了Michael S. Waterman教授讲述了HGP最早的那段历史（点击这里阅读全文）以及Michael Q. Zhang教授分享了自己参与HGP的部分工作以及在从事基因组研究中的个人感悟（点击这里阅读全文）。

在第3期的文章中，QB编辑部又邀请了杨焕明院士、陈润生院士以及美国Andrew F. Neuwald教授分别分享他们经历HGP研究的见闻及感想。今天先和大家分享的是陈润生院士的 “Early bioinformatics research in China”文章（点击文末“阅读原文”下载PDF全文）。在文章中，陈院士不仅回顾了国内早期生物信息学的发展及相关专家和团队，还介绍了自己课题组如何加入国内HGP研究，以及克服各种困难从事非编码序列研究的经历。

QB期刊 | 纪念HGP20周年系列文章3：陈润生院士回顾我国早期生物信息学的发展..._机器学习_02

陈润生院士

Profile

陈润生院士现任中国科学院生物物理研究所研究员，Quantitative Biology期刊编委。2007年当选中国科学院院士，2014年当选欧亚科学院院士，曾获国家科学技术进步奖二等奖（第一完成人）。他是我国最早从事理论生物学、生物信息学以及非编码RNA研究的科研人员之一。参加完成了我国第一个完整基因组泉生热袍菌B4基因组序列的组装和基因标识，并参加了人类基因组1%和水稻基因组工作草图的研究。在非编码RNA研究中，构建了收录非编码RNA及其基因的数据库NONCODE，以及收录非编码RNA与其它生物大分子相互作用的数据库NPInter，这两个数据库已成为国际在非编码RNA领域非常有影响力的数据库。

文章概要

生物信息学一词是1988年由Dr. Hwa A. Lim首创，其定义为 “生物信息学是一门收集、分析遗传数据以及分发给研究机构的新学科“。生物信息学真正的发展壮大得益于人类基因组计划的实施，其内涵也更加丰富。它是当今自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

国际人类基因组研究酝酿于上世纪八十年代末，起始于九十年代初，我国科学家在1991年就已经讨论如何参与基因组研究的事情。当时的国家自然科学基金委员会生命科学部主任吴旻先生于1991年底向基金委递交了中国人类基因组计划的重大课题建议书。1993年9月28日，由国家自然科学基金委员会生命科学部组织的以谈家桢教授为组长的专家组，在沪论证并通过了强伯勤教授、陈竺研究员申请的《中华民族基因组中若干位点基因结构的研究》重大项目，这标志我国HGP（Human Genome Project）正式启动。

陈润生先生从上世纪八十年代末就开始关注人类基因组研究，特别是读了发表于1990年4月6日Science上由James Watson撰写“The Human Genome Project: Past, Present, and Future”一文后，他将自己长期以来对人类基因组的认识和理解通过邮件与James Watson教授进行交流。让陈先生没有想到的是与他素未谋面过的James Watson教授竟寄来了一份美国人类基因组第一个五年计划的正式文件。在读完这份文件后，陈先生坚定了投身基因组研究的决心。同时也了解到信息分析，包括序列的组装与功能元件的标识是本项目的关键。随后，陈先生找到吴旻先生表示愿意无偿参加国内人类基因组研究项目中的序列组装和分析这一环节，所以陈先生课题组从一开始就参加了我国人类基因组计划的研究工作。

1998年随着“国家基因组北方研究中心” (主任是强伯勤院士，学术委员会名誉主任是吴旻院士)和“国家基因组南方研究中心”成立（主任是陈竺院士），及1999年7月“北京华大基因研究中心”的成立，我国人类基因组大规模测序工作蓬勃展开并实现了与国际的接轨，参加了国际“人类基因组计划”，并承担了人类3号染色体短臂3000万碱基（约占人类基因组全部碱基序列的1%）的测序任务。

在大规模的人类基因组测序之前，为了进行各项准备和锻炼队伍，中科院微生物所谭华荣团队、遗传发育所杨焕明团队和生物物理所陈先生的团队商定先进行一个微生物全基因组的序列测定。通过对各种因素分析后，最后确定了由云南腾冲热泉里筛选出的具有我国知识产权并且只有三百万碱基的泉生热胞菌B4为研究对象。但令大家没有想到的是这个细菌基因组的AT碱基含量很高（达到62.4%），GC含量却很低（仅为37.6%）。由于当时没有现成的软件工具，所有的拼接、组装和基因标识的算法和程序都是由团队人员独立完成。

在参加国内人类基因组计划研究中，陈先生课题组的任务是DNA序列的拼接、组装和功能元件（主要是编码基因）识别的方法研究。为此，课题组建立了DNA序列的统计分析、分维分析、神经网络、复杂性、局域简并度等多种方法，特别是在国际上首次提出密码学方法（Jun Xu, Runsheng Chen*, Lunjiang Ling, Ruqun Shen and Jian Sun: Coincident Indices of Exons and Introns, Comput. Biol. Med. 23 333-343 1993. ），并将这些方法综合起来用于基因识别等，提高了预测的成功率。这一成果于1996年 9月29日在日本筑波召开的第十五届国际科学技术数据委员会(CODATA)大会上获得了“小谷正雄 ”奖 (“Kotani Prize”，生物领域)。

随着参加基因组分析的工作越来越多，陈先生坚信基因组中除了编码序列，大量的非编码序列也具有一定的生物学功能。但由于当时国际上从事非编码RNA研究的团队不多，缺少大量实验数据，要从生物信息角度分析了解非编码序列的功能等于在做无米之炊。1999年起，陈先生开始建立自己的湿实验室，以期通过自己产生的数据对非编码RNA进行功能研究。但一直做理论研究的陈先生要从事分子生物学的研究并非易事。人才在哪里？经费在哪里？设备是什么？做什么？怎么做？都是亟待解决的问题。好在实验室当时请来实验做的比较好的邓巍老师，以非编码序列高达70%的多细胞模式动物线虫作为切入点，并对转录本的长度范围限定在50-500个碱基的序列进行研究。经过四年多系统而深入的研究，实验室不仅在理论方面建立了一套自己的非编码基因预测方法，还在线虫中发现了161个新的非编码基因，并确定了两个非编码基因家族，发现了三个特异的非编码基因启动子，结果显示非编码基因与编码基因一样各自有一套独立的转录调控系统。论文于2006年1月6日在“Genome Research”发表后，美国科协(AAAS)所属的科学评述杂志”EurekAlert”在1月9日发表了长文介绍了这一研究成果。介绍中不仅肯定了上述发现，还指出实验技术的效率比国际上提高了10倍。所有发现的非编码基因都收录于GenBank (NCBI accession number: AY948555-- AY948719)。接着，应用线虫研究中建立的整套非编码基因的识别方法，独立地承担了人类3号染色体完成图中非编码基因的识别工作，发现了各类型非编码基因近900个，作为署名作者本文于2006年发表在Nature上。

与此同时，陈先生课题组自2000年起就开始搜集国际上被实验证实的NcRNA基因及非编码转录本，发展了相应的软件及检索工具，建成了NcRNA数据库--NONCODE，这是当前国际上最全的NcRNA数据库，已成为很多研究的基本数据源，该工作的学术贡献是提出了非编码基因的分类系统。文章刚一发表，2005年1月21日Science杂志就介绍了该工作。此后，又构建了非编码RNA和蛋白等相互作用数据库--NPInter，这些均为国际非编码基因研究提供了数据基础。

在陈先生进行生物信息学研究之前，国内还有许多专家和团队早在二十世纪八十年代初期就开始了这方面的研究。如内蒙古大学罗辽复教授于1982年起带领团队从理论物理转向理论生物学研究，并把主要精力放到DNA序列研究上，这在国内是早的和为数不多的团队。在此期间，他们提出了DNA序列分析的信息学理论。天津大学的张春霆教授在上世纪八十年代中期以后开始从事DNA理论研究，其贡献一方面是提出了用双Sine—Gordon偏微分方程组来模拟DNA分子在转录和复制过程中碱基运动的动力学机制；另一方面是提出了DNA序列的Z曲线理论，开拓了一条用几何学方法分析DNA序列的新途径。目前，Z曲线理论在基因组学和生物信息学中已获得了广泛的应用。由于在理论生物学和生物信息学领域的贡献张春霆教授于1995年当选为中国科学院院士。1997年两位在数理科学领域成绩卓著的科学家郝柏林院士和李衍达院士带领他们的团队加入了基因组序列的信息分析，这不仅壮大了我国的生物信息研究队伍，更激发了科技界对基因组学研究的兴趣。2000年前后的很长一段时间，郝柏林先生和郑伟谋教授经常出现在位于北京空港开发区的华大基因研究院。在那里他们致力于发展新的算法完成水稻基因组的组装和信息挖掘。同时，郝先生还发展了“K-mer(K长度字符串)”技术利用全基因组数据重建了原核生物的生命演化之树，这一套微生物亲缘关系分析软件CVtree得到国际认可。一进入生物信息领域，郝先生就和刘寄星教授主编了《理论物理与生命科学》一书（1997年12月，上海科学技术出版社）。2000年郝先生和他的夫人张淑誉教授合著了《生物信息学手册》（2000年10月，上海科学技术出版社），2002年又出版了《生物信息学手册第二版》。2003年郝先生还写了专门介绍生物信息学的著作《生物信息学浅说》。郝先生对我国生物信息学的发展做出了卓越的贡献。1997年，李衍达院士与孙之荣教授合作创建了清华大学生物信息学研究所，2002年发展为生物信息学教育部重点实验室。长期以来，他们培养了一大批生物信息学领域的骨干人才，为中国生物信息学的推广和生物信息学领域的发展做出了重要贡献。

进入二十一世纪后，又有两只重要的队伍开展了生物信息学的相关研究，分别是北京大学理论生物学中心和上海生物信息学中心。北京大学理论生物学中心是在李政道先生提议下、在北京大学有关领导的倡导和大力支持下于1999年开始筹建，2001年9月17日正式成立，它集中数学、物理、化学、力学、生物及计算机科学的研究力量，从实验与理论两个方向开展关于生物学交叉的理论生物学与系统生物学研究工作，特别是在生物调控网络等的研究上取得了重要的成果。开始建立时的重要成员包括：来鲁华教授、佘振苏教授、汤超教授和欧阳颀教授，后两位现已当选为中国科学院院士。中心现已更名为北京大学定量生物学中心。上海生物信息学中心成立于2000年6月，是中国科学院上海生命科学研究院内的生物信息学支撑平台，中心主任为李亦学研究员。这支队伍成为2002年成立的上海生物信息技术研究中心的核心力量。这一中心隶属于上海科学院，是由上海市科学技术委员会依托中国科学院上海生命科学研究院、国家人类基因组南方研究中心、复旦大学、上海交通大学、上海医药工业研究院等11家科研单位，整合上海生物信息学主要研究力量正式组建的团队。中心是一个专业从事生物信息研究和数据库建设、生物信息学软件开发的独立事业法人单位，是上海市生物信息学会的依托单位。

2001年以后人类基因组、水稻基因组的数据先后公布，转录组、蛋白质组等功能基因组的数据不断出现。随着组学大数据的快速发展，我国从事生物信息学的个人或团队在2002年以后迅速增加，比如哈尔滨医科大学2004年3月学校正式批准成立了生物信息学系，李霞教授为系主任。2007年又在该系的基础上成立了生物信息科学与技术学院，这样巨大的规模，在国内也是首屈一指。

Quantitative Biology期刊介绍

Quantitative Biology （QB）期刊是由清华大学、北京大学、高教出版社联合创办的全英文学术期刊。QB主要刊登生物信息学、计算生物学、系统生物学、理论生物学和合成生物学的最新研究成果和前沿进展，并为生命科学与计算机、数学、物理等交叉研究领域打造一个学术水平高、可读性强、具有全球影响力的交叉学科期刊品牌。

QB期刊 | 纪念HGP20周年系列文章3：陈润生院士回顾我国早期生物信息学的发展..._大数据_03