基于XML的Web信息抽取与集成技术的研究

VIP免费

3.0 李琳琳 2024-10-14 10 4 1020.5KB 29 页 15积分

侵权投诉

基于 XML 的Web 信息抽取与集成技术的研究

第3章基于 XML 的Web 信息抽取方法分析

3. 1 现有的 Web 页面信息抽取的相关方法

3.1.1 手工方式的信息抽取

从现有的 Web 页面中抽取数据最常用的方法就是手工抽取。这种方式需要对 Web 描述语

言有相当的了解，并且对所要抽取的网页的结构也相当熟悉。在此基础上，通过人工定义所

要抽取的信息的结构，来发现抽取模式。

这类手工方式构造抽取模式的方法，由于它是人工编写抽取模式，所以它的准确性是比

较高的。但是非常耗费人力，由于每个元素的数据都嵌入在文档之中，人需要阅读文档，定

位和抽取对应元素的数据，并把抽取出来的数据输入到一个用户接口。其中用户接口比直接

编辑 XML 要方便一些，但是手工抽取的过程仍然是非常耗费人力的。而且，对于一个外行

人或者对此系统结构不是很了解的人来说，编写这样一个抽取模式是比较困难的，并且对不

同类型的网站，都要编写不同的抽取模式，这对于 Web 这样一个超大信息库来说，既费时

又费力。

这种方法对于正在被创建的 Web 文档可能会更有用一点。然而，很多标准的 Web 信息管

理过程并没有考虑把所有的内容都用对应的语义元素来描述。所以，在很多情况下，手工分

类的方法并没有在创建文档的时候使用，而是在发送这些文档到一个知识管理系统中时，才

需要进行分类。也就是说，新文档在创建的时候，并没有正确的进行分类。一般来说，分类

仅仅限于按照类别把文档放到一个正确的地方。

当存在大量的文档时，手工的方法显然是一个不适当的方法，并且应该作为最后的一个

选择。

参考文献[12]中，作者采用用户输入页面描述文件对层次结构抽取，该描述文件需要用

户描述抽取过程中的具体变量和编写抽取方法，并且这种方法只能适用于某些特殊的页面。

参考文献[13」中，用特定格式的文本描述语言来对抽取的网页数据进行描述，即对源网

页中所需抽取的信息进行重定义抽取模式。这个描述文件包含这些内容：所要获取数据的网

页的路径(URL )、网页获取方式(Get 或Post )、目的模式、所抽取数据与目的模式之间的映射关

系。接着，一个能够解释并执行该描述文件的网页采集程序逐行读入描述文件，执行每行内

基于 XML 的Web 信息抽取与集成技术的研究

容，建立与源网页的连接，访问源网页，进行模式匹配，获取网页数据。

3.1.2 半自动化的信息抽取

这种方式的抽取模式不是通过人工来编写的，而是通过半自动化方式产生的。其过程可

描述如下：首先获得源网页，在浏览器中显示；接着定义目的模式结构；然后标记源网页中

感兴趣的内容，并与目的数据模式之间建立映射；最后通过启发式算法或其他算法，由程序

根据映射关系归纳、总结、推导出抽取模式。

我们可以利用HTML Tidy 提供的标准类库，实现轻量级的Web 数据抽取。HTML Tidy

是W3C 组织推荐的一套免费的工具集，用来帮助开发者转换书写不规范的HTML 文档，并

可进一步生成格式良好的XHTML ( XML 的子集)。它将HTML 文档格式化后，进而解析这个

HTML 文档，生成 DOM 树。在进行样本学习时，对用户选中的数据，反映到 DOM 树上，最

后通过 XSL, XPATH 等自动提取转换。根据上面产生的映射规则，归纳出抽取规则，实现数

据的抽取，并将结果表示为 XML 的形式，为数据进一步的处理做准备。

图3.1 HTML Tidy 工作流程图

Fig. 3.1 HTML Tidy's working flow diagram

这类通过样本学习的半自动化构造抽取模式的方法，相对与手工方式的模式抽取方法而

言，它对用户提出的要求较低，不需要有特别的知识，同时在构造抽取模式上也更加自动化。

但是，它的表达能力不是很强，抽取模式的构造需要大量的样本学习，并且由程序归纳生成

的抽取模式可能不满足实际需要，要人工参与修改或样本重学习。

3.1.3 自动(基于规则)的信息抽取

上述两种信息抽取方式都不约而同的要人工参与，要么人工编写抽取模式，要么人为进

行样本学习。在 Web 信息抽取过程中，面对的是海量的数据，如果采用人工抽取或人工学习

的方式进行信息抽取并不现实。有没有一种方式可以自动获得抽取模式而不用人工参与呢?

通过分析网页，我们可以发现：网页中的有用信息往往位于具有特定排列方式和次序的

结构当中，特别地，由搜索引擎产生的搜索结果通常是有规律的重复的模式。因此挖掘最大

基于 XML 的Web 信息抽取与集成技术的研究

重复模式可以发现非常有用的抽取规则。这类利用页面本身特点来自动获得抽取模式的方法，

我们称之为基于规则的模式抽取。

对于存在大量具有类似结构的 Web 文档，并且是规则允许足够的复杂，这种方式是非

常有用的。然而很多现有的技术平台只能提供很简单的基于规则的信息抽取。

现有技术的第一个不足是所使用的规则只能定义元素的开始标签和结束标签。然而，在

比较特殊的 Web 文档中，所使用的开始标签和结束标签是和普通结构的 Web 文档不相同的。

因此需要的是一个更复杂的规则生成器，它生成的规则能够定位信息位于文档中的位置，甚

至能够定义更为复杂的嵌套的正则表达式。

第二个不足并且也是最大的一个不足，即无法定义层次性结构的模式，并进行相应的信

息抽取。使用简单的规则也许只能抽取出简单的XML，该 XML 符合简单的(平级的)模式。但

是很多的模式是多层次的结构，而且 XML 本质上就是树形的结构，自然需要能抽取出层次

性结构的规则。

现有技术的第三个不足是系统无法在需要的时候推断出规则。这导致了对某些文档还需

要手工编写规则，而不是根据源文档的上下文关系和类别，通过自动程序来生成大部分的规

则。

如果以上提到的三个不足能被克服的话，基于规则的信息抽取方法将是一个非常有前途

的方法。更重要的是，建立基于规则的系统所花费的消耗比手工抽取文档所花费的消耗要小

得多。

3. 2 基于树型结构的 Web 数据抽取规则

3. 2. 1 用树型结构表示Web 文档

现今Internet 上流行的 Web 文档，Web 文档，它的内容是有顺序关系的，大多数都是用

HTML 编写的，对于这样的在表示过程中，必须保持这种有序性，同时，还要保证信息的完

整性。单从语法上来看，以 HTML 编写的 Web 文档和 XML 并没有本质的差别，只不过

HTML 采用的标签是预定义的，并且 HTML 对标签的匹配并没有任何限制，如果不考虑这

些差别，XML 只会比 HTML 多出第一行的<?xmlversion=1.0?>，而其他的内容都是一样的。

这样，如果我们面对的是一个格式良好的HTML 文档，只需在头部加上XML 的第一行标记，

同时将相应的文件扩展名.htm 改为 .xml，就转换成为 XML 文件了。毕竟，格式良好的Web

文档在所有 Web 文档中只是很小的一部分，对于非格式良好的Web 文档，由于 XML 对标签

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 积分 4人已下载

立即下载 VIP免费下载

摘要：

基于XML的Web信息抽取与集成技术的研究第3章基于XML的Web信息抽取方法分析3.1现有的Web页面信息抽取的相关方法3.1.1手工方式的信息抽取从现有的Web页面中抽取数据最常用的方法就是手工抽取。这种方式需要对Web描述语言有相当的了解，并且对所要抽取的网页的结构也相当熟悉。在此基础上，通过人工定义所要抽取的信息的结构，来发现抽取模式。这类手工方式构造抽取模式的方法，由于它是人工编写抽取模式，所以它的准确性是比较高的。但是非常耗费人力，由于每个元素的数据都嵌入在文档之中，人需要阅读文档，定位和抽取对应元素的数据，并把抽取出来的数据输入到一个用户接口。其中用户接口比直接编辑XML要方便一...

展开>> 收起<<

基于XML的Web信息抽取与集成技术的研究.doc

共29页,预览3页

还剩页未读，继续阅读

基于XML的Web信息抽取与集成技术的研究

相关推荐

开通VIP享超值会员特权

作者详情

相关内容

推荐作者

热门标签

举报选择: