四、生物信息学

四、生物信息学

生物信息学作为采用计算机技术和信息论方法研究生命科学中各种生物信息的表达、采集、储存、传递、检索、分析和解读等的一门科学,是现代生命科学与信息学、计算机、数学、统计学、物理、化学等学科相互渗透和高度交叉形成的新兴边缘学科。生物信息学(Bioinform atics),又时常被称为计算生物学,是应用计算机技术和数学模型等方法对海量生命科学相关的信息进行储存、提取和分析计算的前沿交叉学科,是系统生物学的关键技术组成。其优势不仅在于能够解读不同类型数据之间的关联,更在于擅长挖掘海量数据背后所蕴含的生物学规律。中医药的研究与生物信息学相结合,将有可能从系统的角度诠释中医药多靶点、平衡调理、标本兼治的治病机制和分子机制,为中医药研究提供新的思路。

生物信息学与计算机数据处理技术之间的关系主要包括:①计算机高性能计算和新算法的需求。如用于序列同源性的BLAST算法、FASTA算法和多序列比对算法;用于进化树分析的ClastW算法、Fitch算法等;神经网络模型构建等。②数据库的开发管理,生物学应用软件的开发维护,以及各种在线生物学分析工作的完善。各种数据库几乎覆盖了生命科学的各个领域。核酸序列有GenBank,EMBL、DDBJ等三大数据库;蛋白质序列有SwissProt、PIR、OWL、NRL3D、TrEMBL等数据库;蛋白质片段数据库有PROSITE、BLOCKS、PRINTS、Pfam等;三维结构数据库有PDB、NDB、BioMagResBank、CCSD等。各种数据库的开发为分析利用与日俱增的生物学数据提供了极大的方便。③数据分析与应用,即从大量数据中获取有用的生物学信息。如GenBank中EST数据库中收集的人EST序列几乎包含人类所有基因序列信息,其中包括了大量未发现的人类基因的信息,可利用这些信息发现新基因,对人类的基因定位、剪接形式进行大规模预测和基因表达谱分析;利用转录组数据库搜索基因组中各个基因转录情况及对组织特异性进行预测;利用蛋白质数据库对未知蛋白空间结构进行预测;通过对比较基因组学数据库的搜索,寻求那些可能在进化过程中起重要作用的基因。随着人类基因组的研究,破译了人类和多种模式生物的遗传信息,并且在基因组编码功能及蛋白质序列和结构上的进展,获得了巨大数量的信息,促成了生物信息学的产生和发展。生物信息学作为一门崭新的学科领域,它把基因组DA序列信息作为源头,在获得了蛋白质编码序列的信息之后,进行蛋白质空间结构的模拟和预测。然后根据特定蛋白质的功能,进行药物分子结构的设计。

在技术和方法上包括3个方面:

(1)基于信息网络系统的生物信息管理、分析和通信网络,即各种形式的生物数据库,通过数据搜集对基因结构、功能和蛋白质结构,功能进行分析。计算机技术与分子生物学的关系之密切正如数学与物理学之间的关系。

(2)基于计算的基本生物学问题的研究工作,特别是蛋白质等生物大分子折叠、结构的热力学分析、动力学分析、神经网络方法和复杂性计算等。在此基础上建立蛋白质折叠的三维结构模型、蛋白质与配体(包括小分子配体、糖类、蛋白质、DNA)的识别与相互作用模型。

(3)基因芯片开发与分析。基因芯片包括微阵列(Microarray)和寡核苷酸芯片两种。微阵列主要包括DA微阵列(表达谐阵列)和基因组微阵列。这一技术具有高度自动化、并行化和多样化的特点,被广泛应用在序列分析、表达谱分析、肿瘤相关基因分析和药物诊断设计等。基因芯片已成为后基因组时代基因功能分析和药物开发的支撑技术之一当前的生物信息学包含了基因组信息学、蛋白质结构模拟和药物设计等3个组成部分。

目前的研究包括下面几个方面:

1.相关信息的收集、储存、管理与提供

建立基因组有关信息的数据库。在互联网上可以找到2万多种生物的完整基因组以及正在被破译的40多种生物基因组数据库,与此有关的基因组信息的评估、检测系统以及它们的标准化、可视化等,还包括以互联网为基础的传输网络。

2.新基因的发现和鉴定

利用ETS数据库寻找新的完整的基因序列。从DNA数据库确定编码区。基因组和蛋白质组分析,通过对模式生物、病原性生物和经济生物基因组序列分析,发现新基因;比较基因组学,研究不同物种之间编码顺序上和组织结构上的同源性,阐明物种进化关系以及基因组的内在结构。大规模的基因功能研究,如酵母基因组6000多个开放阅读框架实验数据库,酵母蛋白质组双杂交矩阵等。目前人类基因组精细图谱以及酵母、线虫、果蝇、拟南芥等模式生物的基因组测序已经结束。这些数据的积累为生物学研究提供了很多有用的信息。

3.非编码区的信息结构分析

现在对基因与基因之间广大非编码区的认识还很少。尽管知道它们对基因活性的调控具有重要意义,但对它们的基因四维时空表达中的信息、编码特征认识很少。这些信息包括启动子、增强子等元件以及内含子、卫星DNA、各种重复序列结构和假基因等。

4.大规模基因功能表达谱的分析

存在于基因组上恒定的、共有的基因图谱,向时间和空间上有差异的表达谱展开,是后基因组的研究内容。核酸和蛋白质两个层次构成生物信息学的重要内容。核酸层次上以DNA芯片为代表,开展基因功能的研究;在蛋白质水平上,通过双向电泳和测序质谱技术,进行蛋白质组学的研究。

5.蛋白质分子空间结构预测、模拟和分子设计

蛋白质空间结构在很大程度上决定了它的功能,因此如何获得蛋白质的结构并对它进行分析研究是现代分子生物学的重要课题。预测空间结构现在有两个大方向:一是根据二级结构预测结果以及蛋白质结构类型和折叠类型的预测结果,考虑到结构间的立体化学性、亲水性和疏水性、氢键以及静电相互作用,把可信度较高的二级结构进一步组装、搭建出最后的蛋白质空间的结构。二是不依赖于二级结构预测的结果,借用小分子构象研究的分子动力学和分子力学方法,直接预测蛋白质空间结构。这些方法的计算量很大,因此需要对蛋白质结构进行合理的简化。通过基因序列预测编码蛋白,进而预测蛋白质的高级结构和生物学功能,阐明结构与功能之间的关系;在基因水平研究单基因疾病和多基因疾病的致病机制;通过基因组和对应蛋白质组之间的比较,研究基因在时间上的发育表达水平和在空间上的组织分布的差异,进而研究基因的表达调控和生理学作用。

6.药物开发

基因组研究对药物学和药理学研究产生了重大影响,尤其为分子药理学研究、新药筛选及药靶设计等提供了新的研究基础。综合利用各种生物信息学资源可以大大缩短新药的开发周期,对已有药物进行改造,降低其毒副作用,并可以指导开发针对个人遗传背景的个性化药物。