logo

您所在的位置:首页>>SEO优化 >>南山SEO优化>>网页去重简单策略南山SEO优化应用示例

网页去重简单策略南山SEO优化应用示例

来源:SEO科技网 上传:SEO科技网 更新日期:2022-7-21

网页去重简单策略南山SEO优化应用示例
Map/Reduce的基本思想,本节用网页去重和建立倒排索引这两个稍微复
杂些的例子来说明Map/Reduce的具体应用。
这里的网页去重采用简单策略,目标是将网页集合内所有内容相同
的网页找出来,采取对网页内容取哈希值的方法,比如MD5,如果两个
网页的MD5值相同,则可以认为网页内容完全相同。
在Map/Reduce框架下,输入数据是网页本身,可以用网页的URL作
为输入数据的Key,网页内容是输入数据的Value; Map操作则对每个网
页的内容利用MD5计算哈希值,以这个哈希值作为中间数据的Key,网
页的URL作为中间数据的 Value; Reduce操作则将相同Key的中间数据对
应的URL建立成一个链表结构,这个链表代表了具有相同网页内容哈希
值的都有哪些网页。这样就完成了识别内容相同网页的任务。


对于建立倒排索引这个任务来说,输入数据也是网页,以网页的
DocID作为输入数据的Key,网页中出现的单词集合是输入数据的
Value; Map操作将输入数据转化为<word,DocID>的形式,即某个单词
作为Key } DocID作为中间数据的Value,其含义是单词word在DocID这
个网页出现过;Reduce操作将中间数据中相同Key的记录融合,得到某
个单词对应的网页ID列表:}word,List(DocID)>。这就是单词word对应
的倒排列表。通过这种方式就可以建立简单的倒排索引,在Reduce阶段
也可以做些复杂操作,获得形式更为复杂的倒排列表。
在实际的搜索引擎中,在建立索引之前往往首先对网页去重,上面
两个例子可以依次串联起来,即先用Map/Reduce方式对网页去重,之后
根据去重后的网页来建立倒排索引,将两个Map/Reduce任务串联起来形
成更加复杂的任务。

南山SEO优化,更多>>
       
 
       
 
       

CopyRight © 2023 SEO科技网 All Rights Reserved