点击这里给我发消息 客户专员
点击这里给我发消息 客户专员
客服电话:021-31126365
值班电话:021-31126365
您现在所在的位置 :主页 > 文章资讯 > 网站优化技术 >

文本压缩基本概念

时间:2015-01-09 22:43  来源:网站优化  作者:www.websitemgt.com  点击:
文本压缩基本概念介绍。
文本压缩基本概念
 
搜索引擎原理中的文本压缩
 
上海网站优化公司为了做好搜索引擎优化工作,必须要了解搜索引擎原理中的文本压缩概念。文本压缩是是指用较少的位或字节来表示文本,这样将可以显著地减小计算机中存储文本的空间大小。常规的压缩方法是基于字符的压缩,但是,为了能够在信息检索中进行快速的单词匹配,压缩的基本单位是单词而不是字符。新的基于单词的压缩方法允许随机访问压缩文本中的单词。在选择压缩方法时,除了要考虑空间的节省程度外,还要考虑压缩文档的编倘和解码速度。另一个需要考虑的重要特性就是是否能够在压缩状态下进行模式匹配,在压缩文本中执行模式匹配将使得不需要在模式匹配过程中解压缩所有要匹配的文档。
在这种情况下,可以通过先压缩搜索词,然后再在压缩文砵中进行模式匹配。由于基于压缩文本的模式匹配所扫描的文本较少,所以对压缩文本的搜索速度就可以大大提高。
当文本信息库的容量很大时,如果要快速有效地获取这种文本,那么就需要使用特定的索引技术。一种简单而且常用的文本索引结构是倒排文档。如果搜索过程是以简单的单词匹配实施的,那么基于倒排文档的索引结构就能满足这种需求。这种基于单词匹配的查询方式在目前的信息获取系统中用得比较普遍,例如,在当前的Web搜索引擎中。倒排文档结构适用于对大型文本集合建立索引。
一个典型的倒排文档由以下两部分组成:
(1)一个包含信息库中的文本中所有不同单词的向量(也叫做词汇表);
(2)对于词汇表中的每个单词,有一张包含这个单词的所有文档(通过文档号来标识)组成的列表。每个列表中的文档根据文档号的大小升序排列。查询执行的时间与访问索引所需要的时间密切相关。
倒排文档使用了特定的文本压缩方法,因而是一个效率很高的索引压缩方案。目前常用的有两种文本压缩的方法:统计方法和字典方法。

 
(责任编辑:admin)

锐虎网络--专业网络营销服务提供商