
§4.4 本章小结 .................................................................................................................................32
第五章 Web 主题并行化搜索架构方案 ............................................................................................33
§5.1 负载均衡 .................................................................................................................................33
§5.1.1 负载均衡的基本问题 ..................................................................................................... 33
§5.1.2 负载均衡的基本算法 ..................................................................................................... 33
§5.2 爬虫负载信息描述与信息收集策略 .................................................................................... 36
§5.2.1 爬虫负载信息描述 ......................................................................................................... 36
§5.2.2 爬虫负载信息收集方式 ................................................................................................. 37
§5.2.3 爬虫收集负载信息时间控制 ......................................................................................... 37
§5.2.4 爬虫信息描述包构建 .................................................................................................... 38
§5.3 并行系统结构及其主要技术 ............................................................................................... 38
§5.3.1 系统结构 ..........................................................................................................................38
§5.3.2 关键技术 ..........................................................................................................................41
§5.3.3 并行算法构建 ................................................................................................................ 45
§5.4 实验结论及分析 ....................................................................................................................47
§5.5 本章小结 ................................................................................................................................49
第六章 系统设计 ................................................................................................................................ 50
§6.1 网络资源搜索原理 ............................................................................................................... 50
§6.1.1 起始地址的选择 ............................................................................................................. 51
§6.1.2 网络资源搜索系统控制原则 ......................................................................................... 52
§6.2 系统的设计 .............................................................................................................................53
§6.2.1 网络爬虫的结构 ............................................................................................................. 53
§6.2.2 系统的工作过程 ............................................................................................................. 54
§6.2.3 队列管理实现 ................................................................................................................. 54
§6.2.4 系统工作流程图 ............................................................................................................. 55
§6.2.5 系统信息搜集策略 ......................................................................................................... 56
§6.2.6 网页内容提取 ................................................................................................................ 57
§6.3 本章小结 .................................................................................................................................59
第七章 总结与展望 ............................................................................................................................ 60
§7.1 结论 .........................................................................................................................................60
§7.2 展望 .........................................................................................................................................60
§7.2.1 评价网页权威性实用性功能 ......................................................................................... 60
§7.2.2 模型抽取 ..........................................................................................................................60
§7.2.3 加强网页对于 script 链接的抽取 .................................................................................. 61
参考文献 .............................................................................................................................................. 62