021-52190710

基于词频和关键词位置统计排序算法
  1、词频加权
 
 
 
    词频加权的方法有绝对词频加权、相对词频加权、反词频加权、基于词分辨值加权等等。对于单一词搜索引擎,只用单纯地计算一个词在网页中的出现频率就可给定权值。而对于具有进行逻辑组配功能的搜索引擎,则必须用其它的加权方法。因为用组配的检索式检索时,检索结果跟检索式中的每个检索词相关,而每个检索词在所有的网页中出现的总频率是不同的,如果按总权值来排序,就会造成结果的不相关。这可以通过其它多种方法解决。例如,利用相对词频加权原理,可以通过对大量网页的统计,把越是在所有网页中出现频率高的词赋予一个较低的初始值相对地,在所有网页中出现频率低的词,给一个较高的权值。
 
 
 
    2、词位置加权
 
 
 
    通过对词在网页中不同位置和版式,给予不同的权值,从而根据权值来确定所搜索的结果和搜索词的相关程度。
 
 
 
    词的位置包括:网页标题、网页描述、关键字、正文标题、正文内容、文本链接、标识等。
 
 
 
    版式包括:字体、字号、有无加粗强调等。和传统文献一样,一般在较重要的位置如标题、正文的结尾句等出现的词给较大的权值,例如要了解百度,在搜索“百度”时,有两个结果,一个标题是《百度介绍》,另一篇文章的标题是《谷歌节绍》,但内容有个别地方提到百度,显然第一个结果的相关性更大,“百度”这个词在第一个结果中给予的权值应大一些。另外,字符较大、加粗强调的地方,一般也会给予较大的权值。
 
 
 
    3、词频和位置统计排序优缺点
 
 
 
    词频统计有易用,易实现的优点,其技术也发展得最成熟。至今仍是各搜索引擎排序核心技术的基础,因为依鼎单纯的链接分析,如果检索词和网页相关度不高,就算网页的质量再高,再权威,相对用户来说也是没用的,这也是为何很多网站站长发了大量的外链排名不佳的真实原因,甚至有些站点仅仅是把标题和页面内容保持高度的一致相关,没有任何外部优化的作用,也可达到良好的排名效果。词频统计也有很多不足,它根本没有利用跟网络中网页有关的特性,可以说是前网络时代的技术。
Copyright © 2002-2025 上海速恒网络科技有限公司

沪ICP备06022584号-16