节点文献

文本数据的生物信息学模型及在前列腺癌中的应用研究

Bioinformatics Modelling on Texts and Its Reasearch and Application on Prostate Cancer

【作者】 朱斐

【导师】 沈百荣;

【作者基本信息】 苏州大学 , 系统生物学, 2013, 博士

【摘要】 大量的生物文本为生物医学研究提供了丰富的资源。但由于文本数量巨大,无法通过人工处理来获取信息。文本挖掘能从现有的文献中自动地挖掘感兴趣的信息。借助于文本挖掘,可以从文献数据库检索需要的生物医学文本;这些非结构化的文本包含了大量的研究成果和实验数据,文本挖掘可以找出其中蕴含的重要信息和知识;在所发现的信息的基础上,研究人员可以进一步生成假设、进行推断和预测、指导实验和更深入的研究。癌症已经成为影响人类健康的主要恶性疾病之一,对癌症的预防、诊断和治疗是一个重要的研究热点。以文本形式存在的大量癌症相关的文献和实验数据为生物医学研究提供了宝贵的资料。许多研究者借助于文本挖掘在处理文本数据方面的优势,将癌症研究和文本挖掘相结合,使用文本挖掘技术发现新的知识,以促进生物医学的深入研究。本文综述了文本挖掘的各项子任务、一般处理流程、常用数据集和工具,介绍了目前文本挖掘在癌症中的应用研究,具体包括:1)介绍了文本挖掘的相关概念、各项子任务以及处理流程;2)细述了一些常用的文本挖掘工具和语料,分析比较了这些工具的优缺点和适用领域;3)分析总结了基于文本挖掘的癌症系统生物学研究常规流程;4)指出了文本挖掘存在的不足,面临的挑战,并针对性地提出了解决思路以供研究者参考。要从这些海量数据中挖掘信息,找出文本中包含的生物词汇是关键。命名实体识别的目的是从文本中识别出指定类型的实体名字,如基因、蛋白等。命名体识别是进一步挖掘信息的基础。从计算建模的角度来看,生物命名体识别可以看成是一个序列分割问题,得到了广泛的研究。然而,由于生物词汇在词汇构造、语法、词形、语义、上下文等多方面均有特殊性,因此,很多通用的命名体识别系统在识别生物词汇时表现不佳。在机器学习的方法中,支持向量机(Support Vector Machine,SVM)在解决小规模的、非线性的、高维的问题时表现较好。SVM在关系提取、关系预测和模式识别等方面有着大量的应用。机器学习的另一种方法条件随机场(Conditional RandomField,CRF)是为了解决最大熵马尔可夫模型中存在的标注偏置问题而引入的,是一种连续的优化最大熵模型。CRF擅长于解决序列标记问题。然而,在实际应用中,SVM和CRF具有很多不足和限制条件。SVM最初只适用于二分类问题而CRF可以用于多分类问题;虽然CRF通常需要较多的计算时间和空间,但很适用于解决序列数据的标记问题,具有较高的稳定性。通过分析发现,SVM和CRF具有一定的互补性,结合二者能相互促进,获得更好的结果。本文将生物命名体识别视为一个包含多个步骤的任务。首选确定候选的单词是否为一个生物单词;由于这个过程是一个二分类问题,因此可以使用SVM来很好地完成。如果判断的结果是一个生物单词,则再使用CRF来确定这个单词属于哪种类别。然后将SVM和CRF的结果进行合并,最后,利用一系列的算法进行修正。具体包括:1)根据生物单词的特性,使用所提出的2条规则,找出由于上下文的不同而造成不一致;2)提出了1条规则用于保证找出的词汇包含尽可能多的生物单词,并在此基础上提出了词汇长度最大化算法,以确保得到最完整的生物词汇;3)针对SVM和CRF结合后可能出现的结果不一致现象,提出了最大双向概率的方法以分析结果。双向概率包括了向前概率和向后概率两部分。向前概率给出了在前一个状态的基础上向前输出的各种情况的概率;向后概率给出了在后一个状态的基础上向后输出的各种情况的概率。本文取二者结合的最大值所对应的状态作为结果。本文在GENIA数据集和JNLPBA04数据集上分别进行了测试。多个评价指标均表明,结合SVM和CRF可以获得更好的效果。本文所提方法的基本思想是充分发挥CRF模型的稳定性并利用SVM长于二分类问题以改进CRF的效果。然而,由于SVM和CRF是两种不同的方法,简单将其组合起来使用可能会造成标记结果的不一致性。通过修正之后,可以改善该问题,从而在保证识别稳定性的前提下提高了识别效果。随着对生物问题研究的深入,人们逐渐认识到,复杂的生物功能和生命现象,是各种生物基本组成单位之间复杂相互作用的结果,不能简单地归结为生物分子个体的结构和功能。深入研究各种生物分子的相互作用网络从而理解生命功能是如何通过各种生物分子的相互作用实现的,是现代生物学的一个主要内容。强化学习方法是一种机器学习的方法。在强化学习的框架下构建作用网络,具有多个优势:1)作为一个复杂的疾病,癌症的生物分子作用网络是无标度的。使用强化学习的方法,agent反复尝试作用结对交互,奖赏和回报决定了哪些交互被强化,网络结构作为agent学习行为的动态性的结果出现。网络本身所具备的无标度特性会被保留。2)生物问题一个特点是具有未知性。癌症作为一种系统的、复杂的疾病,其中的一些机制还未被人们所了解。强化学习提出了一个未知随机环境中学习最佳行为的问题。使用强化学习的方法,保证网络收敛到一个最佳的稳定状态。3)使用具有开放性的强化学习方法,在建立网络的过程中无缝地与生物知识和生物数据结合。来自多个源的生物数据可以被用于构建网络,各种数据互为利用、取长补短,因此所建立的网络具有更高的可信度。使用强化学习框架,强化生物事实,而非随机构建网络,确保网络符合生物复杂网络的基本特性。在作用网络的环境下,如果单纯考量两个生物实体的单个作用关系而不考虑其他生物实体的影响,是不适合的。本文给出了一个综合影响的概念,用以衡量节点的交互的上下文环境中和网络环境下的相互影响力。综合影响包括了两个生物实体之间直接相互作用而产生的直接影响以及通过其他生物实体间接发生的间接影响。分析表明,综合影响更适合作用网络的环境。本文认为,综合影响越大,两个生物实体之间的相互作用就越强,该作用出现的概率也越高。基于生物网络的非随机性,本文提出了基于综合影响的网络熵的概念和相关计算方法来衡量网络信息流分布不规则性,以分析网络演化过程中的稳定情况。由于最终形成的作用网络并非随机网络而是具有稳定的拓扑结构,因此,所建立的作用网络的网络熵越小越好。本文采纳了强化学习的思想,在行动者-评论家算法框架下,提出了一种构建相互作用网络的算法。该算法以节点表示生物分子,边表示生物分子之间的作用。在网络演化的过程中,一个节点选择连接网络中的其他节点,代表一个生物分子选择网络中其他候选生物分子与之交互。每个生物分子在不同阶段都有不同的决策,并得到对应的网络熵。算法以当前网络状态下所有节点的平均奖赏作为判断条件,反复进行选择,不断迭代,最终演化形成一个最佳的网络。该网络是作为学习行为动态性的结果出现的。前列腺癌是最主要的高发性恶性肿瘤之一,也始终是生物研究者的关注热点。本文在PubMed的文本数据集上,利用所提出的方法,建立了一个前列腺癌的蛋白质相互作用网络,结果显示,本文方法所得到的效果较好。网络拓扑结构分析的结果也表明,本文方法所建立的网络的节点度分布符合无标度特性。最后,在本文主要方法的基础上,开发了一个生物文本挖掘系统。该系统包含文本检索、大规模文本自动下载、生物词汇识别、基于文本数据的生物相互作用网络构建以及网络可视化等主要功能。

【Abstract】 Many biomedical texts provide a wealth of resources for biomedical researchers.However, it is impossible for people to manually process this gigantic amount of texts.Meanwhile, text mining can help researchers to explore information of interest fromexisting texts. Through text mining, required biomedical texts can be retrieved fromliterature databases; text mining can extract important information and knowledge fromthese unstructured texts which contain numerous research results and experiment data; textmining can also help to generate hypothesis and carry on prediction which can be used forfurther research work.Cancer is one of the worst diseases that influence human health. The research oncancer prevention, diagnosis, and treatment is one of the hotspots of biomedical researchareas. As it is well known, biomedical research relies heavily on existing material. Thereare a lot of cancer-related literature and experimental data, while text mining has anadvantage of information processing. Therefore, many researchers have begun to combinecancer research with text mining to discover new knowledge and promote biomedicalresearch.In this dissertation, we review the sub-tasks of text mining, the general processes,commonly used data sets and tools, and show some current text mining applications incancer research. We also analyze and summarize text mining-based cancer systems biologyresearch routine process, and point out limitations of text mining, as well as challenges andsolutions.To get information by text mining from massive data, it is essential to find outbiological terms from the texts. Named entity recognition is aimed to identify predefinedtypes of entity names, such as genes and proteins. However, since many factors ofbiological texts such as term structure, grammar, morphology, semantics, and context arenot the same as general texts, many recognition systems failed to identify the terms frombiological texts.SVM (Support Vector Machine) does well in small-scale, non-linear,high-dimensional pattern recognition and other machine learning problems. CRF(Conditional Random Fields) is good at solving sequence tagging problems. However, bothof them have many limitations and drawbacks. As they are complementary to some extent,combining these two methods together can promote performance. In this dissertation, we propose a series of algorithms to detect biological terms fromtexts. The algorithm uses SVM to determine whether a term is a biological one and thenutilize CRF to decide the type of biological words. After merging the results returned bySVM and CRF, an algorithm will be responsible for the correction which uses maximalbi-direction probability to remove inconsistency and ensure the maximal length of theterm.The test results on GENIA datasets and JNLPBA04datasets show that our proposedmethod yields better results. The basic idea of the proposed method is taking full advantageof SVM to improve the effect of CRF. However, since the SVM and CRF are two differentmethods, simply combining them together may cause inconsistency. By amendmentalgorithms, the inconsistency problem can be resolved, thereby enhancing the recognitioneffect.With the proceeding of biological research, people have gradually realized thatcomplex biological functions and the phenomenon of life are the results of complexinteractions among a variety of biological basic units. Deeply studying bio-molecularinteraction network to understand life through a variety of bio-molecular interactions is anelement of modern biology.In the network environment, it is unsuitable to only consider the single interactionbetween the two biological entities. Hereby, in this dissertation, we propose acomprehensive impact concept to measure interactions in the network context.Comprehensive influence includes the direct interaction between the two nodes thatrepresent two entities and indirect interaction between them. The results show that thecomprehensive effect is more suitable for the network environment. We believe that thegreater the influence results in stronger force between two biological entities, as well ashigher probability of occurrence. As most biological networks are not random networks,we put forward a network entropy evaluation method which is based on comprehensiveinfluence to measure the irregularities of network flow distribution in order to analyze thestability of the network during evolution. As the final network after iterations istopologically different from a randomly built network, the network that has the lessnetworks entropy, which indicates more stable, will be better.In this dissertation, we, adopting reinforcement learning idea, put forward analgorithm for interaction network forming which takes advantage of actors-critic algorithmframework. With the algorithm, nodes are used to represent bio-molecules and edgesdenote interactions. During the evolutionary process, a node selects with which nodes in the network it tends to interact. Different decisions will result in different network entropyvalues. The average network entropy will be used to evaluate the current state. Keepselecting and carrying on iteration, until eventually forming an optimal network. Thenetwork is the result of the dynamic nature of learning behavior.Prostate cancer is a malignancy. Researchers have concerned it for a long time. In thisdissertation, we attain biological texts from PubMed and establish a prostate cancer proteininteraction networks by the proposed methods. The results show that our proposed methodis pretty good. Network topology analysis results also show that the network node degreedistribution is scale-free.

  • 【网络出版投稿人】 苏州大学
  • 【网络出版年期】2014年 11期
节点文献中: 

本文链接的文献网络图示:

本文的引文网络