logo

您所在的位置:首页>>SEO优化 >>盐田SEO优化>>单节点搜集效率盐田SEO优化多道搜集程序并行工作

单节点搜集效率盐田SEO优化多道搜集程序并行工作

来源:SEO科技网 上传:SEO科技网 更新日期:2023-9-28

单节点搜集效率盐田SEO优化多道搜集程序并行工作
搜集端程序相当于客户端,在HTTP/1.0中,即使客户端希望在同一次会话
中从同一服务器传输更多的HTML页面,该TCP连接也会被终止,每一个新的
请求需要建立另一个TCP连接,这造成了HTTP服务器的负担。在HTTP 1.1版
中,提供对持续TCP连接的支持,可以参看RFC2068 Hypertext Transfer Protocol一
HTTP/1.1 [RFCs,2004]。这样改变一下可节省Web服务器资源,而且可以节省网
络可使用的带宽。此外,由于避免了每次请求都重新建立连接的开支,使用一个
持续的连接比HTTP /1.0的实现具有更高的操作效率。在TSE中使用的是
HTTP/ 1.1的请求方式,注意不是简单的更换HTTP/ 1.0这个字串为HTTP/1.1,而
是需要保留上次已经建立的连接,如果该连接没有失效,则本次继续使用。


通常情况下局域网的延迟(latency)在1-l Oms,带宽(bandwidth)为
10-1000Mbps} Internet的延迟在100-5 OOms,带宽为0.010-2 Mbps。所以针对搜
索引擎应用的搜集程序通常是在同一个局域网内的多台机器,每个机器多个进程
并发的工作。这样一方面可以利用局域网的高带宽,低延时,各节点充分交流数
据,另一方面采用多进程并发方式降低Internet高延迟的副作用。因为局域网的
利用率儿乎接近1,而Internet因为有路由和拥塞控制等额外要求利用率不高,所
以局域网与Internet的连接是至关重要的。因此需要同时启动多个gatherer并发的
创建多个TCP连接,并发的下载网页。这种方式加快了Web信息的搜集,但是
要避免多个gatherer重复的收集网页(在下一小节中具体介绍解决方法),还要避
免由于同一时问内与同一服务器连接过多而给服务器端造成的严重性能问题。
盐田SEO优化究竞应该有多少个节点并行搜集网页,每个节点启动多少个
gatherer?下面逐步分析得到。先给出理论值,然后给出经验值,最后给出单节点
的搜集效率。

盐田SEO优化,更多>>
 
       
 
       

CopyRight © 2023 SEO科技网 All Rights Reserved