logo

您所在的位置:首页>>SEO优化 >>光明SEO优化>>I-Match算法光明SEO优化Shingling算法

I-Match算法光明SEO优化Shingling算法

来源:SEO科技网 上传:SEO科技网 更新日期:2022-8-9

I-Match算法光明SEO优化Shingling算法
最初的I-Match算法是由Abdur等人于2002年提出的,其基本流程也
遵循本章第一节所述的通用去重算法框架,光明SEO优化I-Match算
法流程的示意图。对于该算法来说,非常重要的一个步骤是事先计算出
一个全局的特征词典,具体到I-Match算法来说,则是根据大规模语料进
行统计,对语料中出现的所有单词,按照单词的IDF值由高到低进行排序,
之后去除掉一定比例IDF得分过高及得分过低的单词,保留得分处于中间
段的单词作为特征词典,实验表明以这些单词作为特征,其去重效果较好。
获得全局的特征词典后,对于需要去重的网页,扫描一遍即可获得
在该页面中出现过的所有单词,对于这些单词,用特征词典进行过滤:
保留在特征词典中出现过的单词,以此作为表达网页内容的特征;没有
在特征词典中出现过的单词则直接抛弃。通过这种方式,抽取出文档对


应的特征,之后利用哈希函数(C I-Match算法采取SHA1作为哈希函数)
对文档的所有特征词汇整体进行哈希计算,得到一个唯一的数值,以此
哈希数值作为该网页的信息指纹,光明SEO优化对网页集合里所有网
页都计算出相应的信息指纹后,如何判断两个网页是否是近似重复网页?
I-Match算法于此很直观,可以直接比较两个网页对应的信息指纹,如果
两者相同,则被认为是近似重复网页,回顾上节所讲Shingling算法的特
征抽取过程,从上述对应的I-Match算法的特征抽取过程可以看出,I-Match
算法抽取出的文档特征是一个个独立的单词,单词之间的顺序没有被考虑进
来,所以I-Match算法对于文档之间单词顺序的变化并不敏感,如果两个文档
所包含的单词相同,但是单词顺序进行了变换,I-Match算法一定会将其算做
重复内容。

光明新区SEO优化,更多>>
       
 
       
 
       

CopyRight © 2023 SEO科技网 All Rights Reserved