IV
§3.4.3.3 使用 DOM 和SAX 处理 XML 性能的比较 ........................................... 36
§3.5 多线程搜索器 .................................................................................................... 36
§3.5.1 多线程技术...................................................................................................36
§3.5.2 多线程爬虫工作方式简述...........................................................................38
§3.5.3 多线程网络爬虫的优化..............................................................................39
§3.5.4 线程管理的实现..........................................................................................39
§3.6 本章小结 ............................................................................................................ 41
第四章 增量并行抓掘策略...........................................................................................42
§4.1 负载均衡 ............................................................................................................. 42
§4.1.1 负载均衡基本问题......................................................................................42
§4.1.2 负载均衡基本算法.......................................................................................43
§4.1.2.1 轮叫调度(Round Robin Scheduling) ....................................................... 43
§4.1.2.2 加权轮叫调度(Weighted Round-Robin Scheduling) ...............................44
§4.1.2.3 最小连接调度(Least-Connection Scheduling) ........................................ 45
§4.1.2.4 加权最小连接调度(Weighted Least-Connection Scheduling) ................ 46
§4.1.2.5 其它负载均衡的基本算法简介...............................................................47
§4.2 爬虫负载信息描述与信息收集策略 ................................................................. 48
§4.2.1 爬虫负载信息描述.......................................................................................48
§4.2.2 爬虫负载信息收集方式...............................................................................49
§4.2.3 爬虫收集负载信息时间控制.......................................................................49
§4.2.4 爬虫信息描述包构建..................................................................................50
§4.3 网络资源增量更新策略 .................................................................................... 51
§4.3.1 基本模型.......................................................................................................51
§4.3.2 变化估测.......................................................................................................52
§4.3.3 估测效率......................................................................................................54
§4.4 系统定义及算法 ................................................................................................ 55
§4.4.1 搜索系统简介...............................................................................................55
§4.4.1.1 网络资源搜索系统结构............................................................................55
§4.4.1.2 系统要求与相关概念................................................................................57
§4.4.2 构建相关向量的定义..................................................................................57
§4.4.3 抓取任务和爬虫节点的能力匹配...............................................................58
§4.4.4 并行算法构建...............................................................................................59
§4.4.4.1 并行算法相关定义...................................................................................59
§4.4.4.2 余弦向量法实现爬虫节点间负载平衡....................................................60
§4.4.4.3 相关算法伪代码描述...............................................................................60
§4.4.5 网页更新频率计算方法..............................................................................62
§4.5 本章小结 ............................................................................................................. 64
第五章 系统设计与实现...............................................................................................65
§5.1 网络资源搜索系统工作原理 ............................................................................. 65
§5.1.1 起始地址选择...............................................................................................66
§5.1.2 漫游空间划分...............................................................................................67