点击这里给我发消息 客户专员
点击这里给我发消息 客户专员
客服电话:021-31126365
值班电话:021-31126365
您现在所在的位置 :主页 > 文章资讯 > 网站优化技术 >

信息预处理技术

时间:2014-12-22 17:20  来源:网站优化  作者:www.websitemgt.com  点击:
信息预处理技术 网站优化是一个复杂的工作,涉及到搜索引擎先期的预处理环节。在之前的搜索引擎原理文中已提及,今天详细说下信息预处理要做的工作。 1.关键词的提取 为了支持后面的查询服务,需要从网页源文件中提取出能够代表其内容的一些特征。从人们现
信息预处理技术
 
网站优化是一个复杂的工作,涉及到搜索引擎先期的预处理环节。在之前的搜索引擎原理文中已提及,今天详细说下信息预处理要做的工作。
信息预处理技术
1.关键词的提取
为了支持后面的查询服务,需要从网页源文件中提取出能够代表其内容的一些特征。从人们现在的认识和实践来看,所含的关键词即为这种特征最好的代表。于是,作为预处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所含的关键词。
2.重复或转载网页的消除
Web上的信息存在大量的重复现象,规模统计分析表明,网页的重复率平均大约为4。也就是说,当通过一个URL在网上看到一篇网页的时候,平均还有另外3个不同的URL给出相同或者基本相似的内容。消除内容重复或主题内容重复的网页是预处理阶段的一个重要任务。
3.链接分析
大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇。HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关注的对象,它们不仅出了网页之间的关系,而且还对判断网页的内容有很重要的作用。
4.网页重要程度的计算
顾名思义,既然是在预处理阶段形成的,就是和用户查询无关的。如何讲一篇网页比另外一篇网页重要?人们参照科技文献重要性的评估方式,核心想法就是“被引用多的就是重要的”。“引用”这个概念恰好可以通过HTML超链接在网页之间体现得非常好,作为Google创立核心技术的PageRank就是这种思路的成功体现。这包括网页的内部链接和外部链接。

 
 
(责任编辑:admin)

锐虎网络--专业网络营销服务提供商