v
§3.2.2 主题网络爬虫存在的问题................................................................... 24
§3.3 垂直搜索策略研究........................................................................................25
§3.3.1 隧道技术............................................................................................... 26
§3.3.2 ε- 贪婪策略搜索算法........................................................................... 27
§3.4 隧道技术的改进策略.....................................................................................28
§3.4.1 改进思想................................................................................................ 28
§3.4.2 具体流程............................................................................................... 29
§3.4.3 算法分析与实验模拟............................................................................ 30
§3.5 本章小结.......................................................................................................31
第四章 网页信息处理相关技术的研究与改进 ............................. 32
§4.1 网页排序技术................................................................................................32
§4.1.1 HITS 算法.............................................................................................. 33
§4.1.2 PageRank 算法 .......................................................................................35
§4.2 HITS 算法的研究与新的应用......................................................................37
§4.2.1 KF-HITS 算法原理 ............................................................................. 37
§4.2.2 KF-HITS 算法具体过程及应用 ......................................................... 39
§4.3 分词词典的补充.............................................................................................44
§4.3.1 问题提出............................................................................................... 44
§4.3.2 利用均值的解决方案........................................................................... 45
§4.3.3 结果分析............................................................................................... 46
§4.4 PageRank 算法的研究与改进 ...................................................................... 47
§4.4.1 蚁群算法简介....................................................................................... 47
§4.4.2 蚁群算法对 PageRank 算法的改进 .....................................................48
§4.4.3 模拟实验............................................................................................... 50
§4.5 网页去重技术...............................................................................................52
§4.5.1 网页重复的原因................................................................................... 52
§4.5.2 现有解决方案....................................................................................... 53
§4.5.3 基于垂直搜索的去重算法................................................................... 53
§4.6 本章小结.........................................................................................................55
第五章 总结与展望 ................................................... 56
§5.1 总结..................................................................................................................56
§5.2 展望..................................................................................................................57
参考文献 ............................................................ 58