节点文献

基于神经网络的拼音汉字转换

【作者】 张俊

【导师】 黄河燕; 王树梅;

【作者基本信息】 南京理工大学 , 计算机应用, 2004, 硕士

【摘要】 拼音汉字转换是自然语言处理的重要内容,在语音输入,语音识别,汉字输入等领域都有重要的应用。本系统的应用背景是中国盲文系统中盲文与汉字的相互转换模块。盲文和拼音有很简单的对应关系,所以盲文到汉字的转换就是拼音与汉字的转换。自然语言处理有基于规则和基于语料库统计两种方法。本文提出的基于神经网络的方法是基于语料库统计的方法的一种,这类方法比基于规则的方法简单,同时也具有很好的效果,能够较好的处理语言的远距离关联和深度递归。本文首先分析了拼音汉字转换的过程和原理,指出拼音汉字转换的重点在于同音字的选择,然后考察了拼音汉字转换的现有的几种方法,重点考察了基于隐马尔可夫模型的转换方法,指出了该方法的一些不足,然后针对这些不足,引入了神经网络的方法,说明了利用神经网络的模式记忆和联想能力来实现拼音汉字的转换的原理。提出了基于神经网络的音字转换系统的结构,设计并实现了基于BP网络和基于RNN网络的拼音汉字转换系统,讨论了运用反向传播算法(BP)算法和随时间演化的反向传播算法(BPTT)对这两种网络进行训练的方法。设计了输出增量训练算法来实现对网络的无监督训练,提出了神经网络和viterbi相结合的拼音汉字转换算法。并说明了系统各模块的功能和实现。对系统实现中的难点和重点进行了讨论。最后讨论了试验结果,对几种方法的转换特性,正确率,时间空间效率和其中的原因进行了讨论。说明了采用基于神经网络的方法模拟高阶的隐马尔可夫模型实现的意义,并提出了以后的改进方向。

【Abstract】 The conversion of PINYIN to Chinese characters is an important content of the NLP (Natural Language Processing). This paper bases on the research of Braille-Chinese conversion. The Braille can easily transform to PINYIN, so the translation of Braille and Chinese is actually PINYIN-Chinese conversion. Basically there are two NLP methods - Rule Based Method and Statistic Based Method. And the system of this paper belongs to the Statistic Based Method. It is more easily to implement. We first discuss the theory of PINYIN ?Chinese Conversion and then review some methods in use, Especially the method based on Hidden Markov Model. We discuss the disadvantage of the method then introduce a PINYIN-Chinese conversion method based on Artificial Neural Network (ANN). We give the structure of the system, and we design and implement two systems. One uses BP network and another uses Recurrent Neural Network (RNN). And then we discuss BP (back propagation) algorithm and BPTT (back propagation through time) algorithm, which is used to train the two networks. We also show an algorithm called output-increase to perform the training. And we give an ANN-viterbi mixed algorithm to do the conversion. The function of each module is showed. And then keystone of the system is discussed. At last we analyze the result of the experiment and discuss the way of improvement.

  • 【分类号】TP391.1
  • 【被引频次】2
  • 【下载频次】197
节点文献中: 

本文链接的文献网络图示:

本文的引文网络