logo

您所在的位置:首页>>SEO优化 >>光明SEO优化>>SHA1哈希算法光明SEO优化避免复杂集合运算

SHA1哈希算法光明SEO优化避免复杂集合运算

来源:SEO科技网 上传:SEO科技网 更新日期:2022-8-9

SHA1哈希算法光明SEO优化避免复杂集合运算
I-Match算法的优点在于其效率很高,因为每个文档被映射为单一
的哈希值,以单一数值作为文档的表征,必然在计算速度上优于多值表
征,因为可以避免复杂的集合运算,光明SEO优化I-Match算法也包
含不少问题,首先,对于短文本来说,很容易出现误判,也就是说两个
文档本来不是近似重复网页,但是I-Match算法容易将两者判断为重复内
容,之所以会如此,原因就在上文提到的特征词典,假设两个短文本内容
并不相似,但是经过特征词典过滤后,只能保留很少几个单词作为文档的
特征,而如果这几个单词是相同的,那么自然会将这两个文档误判为近似
重复网页,其根本原因在于特征词典覆盖不足,导致文档很多信息被过多
过滤,对于短文本这个问题尤其严重。


另外一个更加突出的问题是,I-Match算法的稳定性不好。所谓稳
定性不好,指的是对于某个文档A做了一些较小的内容变动,形成新文
档B,本来应该将两者看做近似重复文档,但是I-Match算法很可能无法
将其计算为我们希望的结果,即I-Match算法对于增删单词这种变化比
较敏感,这是由于I-Match算法所采用的特征词典机制和SHA1哈希算法
共同导致的。

光明新区SEO优化,更多>>
       
 
       
 
       

CopyRight © 2023 SEO科技网 All Rights Reserved