

【作者】 赵鹏

【导师】 李建中;

【作者基本信息】 黑龙江大学 , 计算机应用技术, 2002, 硕士

【摘要】 文本信息数量的飞速增长给传统的信息检索技术带来了新的挑战。在目前有关信息检索技术的研究中,基于数据压缩的信息检索技术是一个新的研究领域。由于使用这种技术能够降低文本信息的空间需求并提高查找速度,所以该技术具有较高的理论研究意义和应用前景。 近年来国内外有一些学者在做关于这种技术的研究,但研究成果不多,研究工作也比较粗散零略。 本文在分析总结前人研究成果的基础上提出了一种压缩纯英文文本数据库正文的压缩方法以及和此压缩方法结合使用的一些查找算法和解压缩算法。 使用本文设计出的压缩方法能够将典型的英文文本数据库压缩到其原始大小的35%左右,要优于winzip等目前流行的压缩软件。此外由于检索可在压缩后的文本数据库上直接进行,所以能够提高查找速度。 此外,作者在本文中还提出了一个基于“块编址”的压缩倒排索引结构以及在此压缩索引结构上的一些查找算法来获得更好的查找性能。

【Abstract】 Information Retrieval technique based on data compression is a new research field, and the research on it is at the beginning.This paper presents a compression method for the pure-english text database and its corresponding decompression method as well as some search algorithms on the compressed text database. These algorithms draw lessons from the knowledge about semi-static model technique and word-based byte-oriented encoding method.The compression method can compress general English text database to about 35% of the original database size, which precedes to many popular compress softwares such as Winzip. Furthermore, retrieval which can be directly executed on the compressed text database increases efficiently the search speed.In addition, a new index structure which can support efficiently search on large full-text database is proposed in this paper, and some search algorithms based on the index structure are designed. Experimental results show these algorithms are very efficient.

  • 【网络出版投稿人】 黑龙江大学
  • 【网络出版年期】2003年 01期
  • 【分类号】TP391.3
  • 【被引频次】6
  • 【下载频次】665