iv
§5.1 网页分类技术..................................................................................................36
§5.1.1 文本分类技术...........................................................错误!未定义书签。
§5.1.2 网页分类的特点.......................................................错误!未定义书签。
§5.1.3 网页分类的相关研究...............................................错误!未定义书签。
§5.2 网页分类模块的设计......................................................................................37
§5.2.1 模块框架...................................................................错误!未定义书签。
§5.2.2 网页预处理...............................................................错误!未定义书签。
§5.2.2.1 HTML 解析.............................................................错误!未定义书签。
§5.2.2.2 英文文法分析和中文分词....................................错误!未定义书签。
§5.2.2.3 停用词删除............................................................错误!未定义书签。
§5.2.2.4 词条频率计算及倒排索引建立............................错误!未定义书签。
§5.2.3 类别特征词库抽取...................................................错误!未定义书签。
§5.2.3.1 类别文档建模........................................................错误!未定义书签。
§5.2.3.2 平凡词过滤............................................................错误!未定义书签。
§5.2.3.3 归类可信度计算....................................................错误!未定义书签。
§5.2.3.3 抽取类别特征词....................................................错误!未定义书签。
§5.2.4 分类器.......................................................................错误!未定义书签。
§5.3 网页分类实验..................................................................................................40
§5.3.1 训练网页集...............................................................错误!未定义书签。
§5.3.2 构建类别特征词库...................................................错误!未定义书签。
§5.3.3 类别阈值的确定........................................................错误!未定义书签。
§5.3.3.1 四类训练集网页类别可信度计算........................错误!未定义书签。
§5.3.3.2 其它类训练集网页类别可信度计算....................错误!未定义书签。
§5.3.3.3 阈值计算................................................................错误!未定义书签。
§5.4 本章小结.........................................................................................................41
第六章 搜索引擎的个性化技术及其实现...................................................................42
§6.1 Web 信息检索个性化的相关技术 ................................................................. 42
§6.1.1 个性化网页权重....................................................................................42
§6.1.2 查询改进................................................................................................43
§6.2 增加 IP 影响因子的页面排序算法 ................................... 错误!未定义书签。
§6.2.1 Lucene 的页面排序算法 ........................................... 错误!未定义书签。
§6.2.2 算法改进...................................................................错误!未定义书签。
§6.3 个性化搜索实现.............................................................................................43
§6.4 本章小结.........................................................................................................48
第七章 系统集成...........................................................................................................49
§7.1 Java 后台应用程序 ......................................................................................... 49
§7.1.1 Nutch09Dev 主工程 ...................................................错误!未定义书签。
§7.1.2 WordSegmentation 工程和 MyLucene 工程 .............错误!未定义书签。
§7.2 Web 应用程序 ................................................................................................. 51
§7.3 本章小结.........................................................................................................53
第八章 总结和展望.......................................................................................................57
§8.1 本文工作总结.................................................................................................57
§8.2 Intranet 搜索的未来展望 ................................................................................ 58