节点文献

科研项目管理中的文本挖掘方法研究及应用

Research on Method and Application of Text Mining in the Field of Scientific Research Project Management

【作者】 姜韶华

【导师】 党延忠;

【作者基本信息】 大连理工大学 , 管理科学与工程, 2006, 博士

【摘要】 在基础研究的科研项目管理中,项目的相似性分析是一个基本的管理问题,依据相似性可以对项目进行分类,避免重复申报、重复立项,还可以为相似项目的评审选择合适的同行专家。项目的相似性分析一般是根据项目建议书的标题、摘要和关键词并结合项目管理人员的经验进行。但是由于一方面项目数量逐年快速增加,另一方面基础研究具有创新性、不确定性、学科交叉融合及新观点、新概念和新的知识点不断涌现等特点,科研项目管理人员很难根据基础研究项目的真正内涵进行相似性分析,从而给管理工作带来了极大的挑战。因此,从项目的知识内涵中进行相似性分析就成为现实的需求,这就需要对项目进行知识挖掘,并从知识管理的角度探讨项目管理问题。 科研项目建议书是由自然语言撰写的文本,特别是我国基础研究的建议书绝大部分是中文文本。因此对项目进行知识挖掘就转变为对项目建议书的文本挖掘。本文针对基础研究项目建设书的特点,研究了文本挖掘中的基本方法。本文的主要工作如下: 1.提出了符合中文科研项目文本特点的长度优先的无词典切分思路。与英文相比,文本切分是中文文本挖掘中的基本问题。科研项目文本中包含大量的语义不可分割的专业术语,并且不断涌现新术语,特别是基础研究项目的中文文本更是如此。现有的文本切分方法不适合于解决基础研究项目的文本切分问题,因此,本文提出了长度优先的无词典切分思路。 2.提出了中文科研项目文本的切分方法。依据上述的切分思路,提出了科研项目文本的三种切分方法:正向串频最大匹配法、逆向串频最大匹配法和双向串频最大匹配法,实验结果表明双向串频最大匹配法可以达到更好的切分精度。结合统计学习与规则筛选,这几种方法可以切分出专指语义串、短语和词。给出了专指语义串的定义,并从系统整体性和语义优先性的角度对其表示科研项目建议书内容的合理性进行了分析。上述方法既可以解决中文基础研究项目建议书文本的切分问题,又可以应用于一般文本的切分。 3.提出了科研项目文本的层次特征项获取和建模方法。针对科研项目的特征项之间在语义上具有层次性的特点,在文本切分结果的基础上,提出了基于迭代学习的层次特征项获取方法。通过迭代学习不仅可以获取切分结果中包含的层次特征项,而且可以获取切分结果中所不包含的层次特征项,从而更全面地表示文本。在层次特征项的基础上,采用网络作为语义层次结构关系的表示工具,从而实现科研项目文本建模。与通常的向量空间模型相比,该模型既可以表示特征项信息,又可以表示特征项之间的语义关系。该模型对单个文本的表示、领域文本的表示及本体等的自动构建具有重要意义。

【Abstract】 Similarity analysis of projects is a basic management problem in the domain of scientific research project management of fundamental research. On the basis of similarity, projects can be classified to avoid repetition and appropriate experts can be selected to evaluate projects. Similarity of projects is analyzed by manager based on experience, title, abstract, and keywords of scientific research project requisitions. The main characteristics of fundamental research are innovation, uncertainty, fusion and cross of subjects, continuous appearance of new viewpoint and new concept. With the rapid increase of projects, it’s difficult for the project manager to analyze the similarity on the basis of the project’s meaning. This is a great challenge to the project management, so similarity analysis from the knowledge meaning of project is a practical requirement.Discovering knowledge from projects and discussing the problem of scientific research management from the point of knowledge management is really a problem.The scientific research project requisitions are texts written by natural language and most requisitions of fundamental research in China are Chinese texts. So knowledge discovery from projects is text mining from requisitions. The basic methods of text mining are studied on the basis of the characteristics of scientific research project requisitions of fundamental research. The main research work of this paper is listed below:1. A new segmentation idea which is on the basis of longer strings first and need not dictionary is proposed. Compared with English, segmentation is a basic problem of Chinese text mining. Plentiful professional terminologies which have semantic integrity exist in scientific research project text and new domain-specific terms increase continuously, especially in Chinese text of fundamental research. Current segmentation methods do not suit text of fundamental research, so an idea of longer strings first and without using dictionary is put forward in this paper.2. Chinese scientific research project text’s segmentation methods are proposed. Three text segmentation methods without using dictionary are proposed based on above idea: maximum matching and frequency statistics (MMFS), reverse maximum matching and frequency statistics (RMMFS), bidirectional maximum matching and frequency statistics (BMMFS). The segmentation results indicate that BMMFS has better precision. Combining statistics and rules, these methods can get special semantic strings, phrases and words. The

节点文献中: 

本文链接的文献网络图示:

本文的引文网络