点击这里给我发消息 客户专员
点击这里给我发消息 客户专员
客服电话:021-31126365
值班电话:021-31126365
您现在所在的位置 :主页 > 文章资讯 > 网站优化技术 >

文本压缩技术

时间:2015-01-10 18:32  来源:网站优化  作者:www.websitemgt.com  点击:
文本压缩技术介绍。
文本压缩技术
 
有两种文本压缩的方法:统计方法和字典方法。
统计方法依赖于对每个符号在文本中出现的概率进行估计,估计得越准确,压缩的效果越好。这里的符号是指一个字符、一个文本单词或者固定个数的字符。文本中所有可能的符号的集合称为字母表。对每个符号进行概率估计的任务称为建模。一个模型本质上是建立信息库中文档的概率分布。一旦有了这些概率,符号就转成二进制数,这个过程称为编码。实际上,编码和解码都使用了同一个模型,解码是编码的逆过程。常见的统计编码方案有两种:霍夫曼编码和算术编码。
文本压缩技术介绍
字典编码根据的是数据本身包含有重复代码这个特性。第一类字典编码的想法是查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现过的字符串替代重复的部分,它的输出仅仅是指向早期出现过的字符串的“指针”。第二类字典编码的想法是从输入的数据中创建一个短语词典,这种短语不一定是具有具体含义的短语,它可以是任意字符的组合。编码数据过程中当遇到已经在词典中出现的短语时,编码器就输出这个词典中的短语的“索引号”,而不是短语本身。
(责任编辑:admin)

锐虎网络--专业网络营销服务提供商
本文由上海网站优化公司-锐虎网络版权所有,未经批准转载必究。