点击这里给我发消息 客户专员
点击这里给我发消息 客户专员
客服电话:021-31126365
值班电话:021-31126365
您现在所在的位置 :主页 > 文章资讯 > 整站优化SEO >

倒排文档压缩

时间:2015-01-09 14:56  来源:网站优化  作者:www.websitemgt.com  点击:
倒排文档压缩知识介绍。
倒排文档压缩
 
今天上海网站优化公司为大家介绍下倒排文档压缩方面的知识。倒排文档是信息检索系统中最普遍使用的索引机制,而索引文件的压缩能大大提高检索速度和节约磁盘空间。倒排文件结构非常适合信息获取系统快速提取文档信息的需要。通过压缩倒排文件列表可以减少倒排文件的尺寸。由于倒排文件列表中的文档号是以升序排列的,这样文档号之间的差距可以看做是文档号之间的间隙。
 
倒排文档压缩
倒排文档通常由两部分组成:词汇表和事件表。词汇表就是放分词词典的地方,事件表就是放这个文档中对应于词汇表中词汇出玛现的位置。另外,还有一种叫做块寻址技术,具体方法是不标出单词的具体位置,而是先将文本分分块,然后再在事件表中标出单词在文本块中的块位置。块的方法可以有效地降低倒排文档的体积,缺点是当需要确定某个词的具体位置时还是要打开文件进行查找,但是如果块够小的话,查找主要的开销是I/O操作,但是空间体积又会变大。
对倒排文档压缩有很多好处。例如,可以减少索引占用的磁盘空间和内存、可以减或少I/O读写量、可以加快查询响应速度。为了能够增加压缩效果,一般在进行压缩前先改写索引内容,首先把倒排索引的数值按照大小排序,然后用差值而非实际值表示(D-gap);这个是每个压缩算法开展前要做的工作。采用索引压缩能够带来很多好处,所以实用的搜索景引擎都会采用索引压缩技术,但是对索引进行压缩也会带来问题,那就是比不压缩需要更多的计算量。
(责任编辑:admin)

锐虎网络--专业网络营销服务提供商