基于XML的Web信息抽取与集成技术的研究

VIP免费
3.0 李琳琳 2024-10-14 7 4 1020.5KB 29 页 15积分
侵权投诉
基于 XML Web 信息抽取与集成技术的研究
3 基于 XML Web 信息抽取方法分析
3. 1 现有的 Web 页面信息抽取的相关方法
3.1.1 手工方式的信息抽取
从现有的 Web 页面中抽取数据最常用的方法就是手工抽取。这种方式需要对 Web 描述语
言有相当的了解,并且对所要抽取的网页的结构也相当熟悉。在此基础上,通过人工定义所
要抽取的信息的结构,来发现抽取模式。
这类手工方式构造抽取模式的方法,由于它是人工编写抽取模式,所以它的准确性是比
较高的。但是非常耗费人力,由于每个元素的数据都嵌入在文档之中,人需要阅读文档,定
位和抽取对应元素的数据,并把抽取出来的数据输入到一个用户接口。其中用户接口比直接
编辑 XML 要方便一些,但手工抽取的过程仍然是非常耗费力的。而且,于一个外
人或者对此系统结构不是很了解的人来说,编写这样一个抽取模式是比较困难的,并且对不
同类型的网站,都要编写不同的抽取模式,这对于 Web 这样一个超大信息库来说,既费时
又费力。
这种方法对于正在被创建的 Web 文档可能会更有用一点。然而,很多标准的 Web 信息管
理过程并没有考虑把所有的内容都用对应的语义元素来描述。所以,在很多情况下,手工分
类的方法并没有在创建文档的时候使用,而是在发送这些文档到一个知识管理系统中时,才
需要进行分类。也就是说,新文档在创建的时候,并没有正确的进行分类。一般来说,分类
仅仅限于按照类别把文档放到一个正确的地方。
当存在大量的文档时,手工的方法显然是一个不适当的方法,并且应该作为最后的一个
选择。
参考文献[12]中,作者采用用户输入页面描述文件对层次结构抽取,该描述文件需要用
户描述抽取过程中的具体变量和编写抽取方法,并且这种方法只能适用于某些特殊的页面。
参考文献[13中,用特定格式的文本描述语言来对抽取的网页数据进行描述,即对源网
页中所需抽取的信息进行重定义抽取模式。这个描述文件包含这些内容:所要获取数据的网
页的路径(URL )网页获取方式(Get Post )目的模式、所抽取数据与目的模式之间的映射关
系。接着,一个能够解释并执行该描述文件的网页采集程序逐行读入描述文件,执行每行内
基于 XML Web 信息抽取与集成技术的研究
容,建立与源网页的连接,访问源网页,进行模式匹配,获取网页数据。
3.1.2 半自动化的信息抽取
这种方式的抽取模式不是通过人工来编写的,而是通过半自动化方式产生的。其过程可
描述如下:首先获得源网页,在浏览器中显示;接着定义目的模式结构;然后标记源网页中
感兴趣的内容,并与目的数据模式之间建立映射;最后通过启发式算法或其他算法,由程序
据映射关系归纳结、推导出抽取模式。
HTML Tidy 提供Web 数据HTML Tidy
W3C 组织推荐的一套免费的工具集,用来帮助开发者转换书写不规范HTML 文档,并
可进一生成格式良好XHTML ( XML )HTML 文档格式化后,进而解析这个
HTML 文档,生成 DOM 在进行样本学习时,对用户选中的数据,映到 DOM 上,最
后通过 XSL, XPATH 自动转换据上面产生的映射规则归纳出抽取规则现数
据的抽取,并果表示为 XML 式,为数据进一
3.1 HTML Tidy 工作
Fig. 3.1 HTML Tidy's working flow diagram
这类通过样本学习的半自动化构造抽取模式的方法,相对与手工方式的模式抽取方法而
言,它对用户出的要,不需要有特别的知识,同时在构造抽取模式上也更自动化 。
但是,它的表达能力不是,抽取模式的构造需要大量的样本学习,并且由程序生成
的抽取模式可能不满足实际需要,要人工参与修改或样本重学习
3.1.3 自动(基于规则)的信息抽取
上述种信息抽取方式都不而同的要人工参与,要人工编写抽取模式,要人为进
行样本学习Web 信息抽取过程中,面对的是量的数据,如采用人工抽取或人工学习
的方式进行信息抽取并不现。有没有一种方式可以自动获得抽取模式而不用人工参与?
通过分析网页,我们可以发现:网页中的有用信息往往位于具有特定排列方式和次序的
结构当中,特别地,由索引擎生的搜索通常是有规律的重的模式挖掘
基于 XML Web 信息抽取与集成技术的研究
模式可以发现非常有用的抽取规则。这类用页面本特点来自动获得抽取模式的方法 ,
我们称之为基于规则的模式抽取。
于存在大构的 Web 许足够的复杂,这
常有用的。然而很多现有的技术平台只能提供简单的基于规则的信息抽取。
现有技术的第一个不是所使用的规则只能定义元素的开始和结。然而,在
比较特殊的 Web 文档中,所使用的开始和结是和通结构的 Web 文档不相同的。
此需要的是一个更复杂生成器,它生成的能够定位信息位于文档中的位
能够定义更为复杂的嵌的正则表达式。
个不并且也是最大的一个不,即法定义层次性结构的模式,并进行相应的信
息抽取。使用简单规则只能抽取出简单XML,该 XML 符合简单(平级)模式。
是很多的模式多层次的结构,而XML 就是树形的结,自然需要能取出层次
性结构的规则
现有技术的第个不是系统法在需要的时候推断规则。这导致了对某些文档
要手工编写规则,而不是据源文档的上下文关系和类别,通过自动程序来生成大分的
以上到的个不能被克服,基于规则的信息抽取方法是一个非常有前途
的方法。更重要的是,建立基于的系统所费的耗比手工抽取文档所费的耗要
得多。
3. 2 基于型结构的 Web 数据抽取规则
3. 2. 1 型结构Web 文档
Internet 行的 Web 文档,Web 文档,它的内容是有序关系的,大多数都是用
HTML 编写的,对于这样的在示过程中,必须保持这种有序性,同时,保证信息的
HTML Web XML
HTML 采用的标定义的,并且 HTML 的匹配并没有不考虑这
别,XML 会比 HTML 多出第一行的<?xmlversion=1.0?>,而其他的内容都是一样的。
这样,如果我们面对的是一个格式HTML 文档,只需在头部加XML 的第一行标记,
同时相应的文.htm .xmlXML 文件了。毕竟格式Web
文档在所有 Web 文档中只是很的一分,对于非格式良好Web 文档,由于 XML 对标
摘要:

基于XML的Web信息抽取与集成技术的研究第3章基于XML的Web信息抽取方法分析3.1现有的Web页面信息抽取的相关方法3.1.1手工方式的信息抽取从现有的Web页面中抽取数据最常用的方法就是手工抽取。这种方式需要对Web描述语言有相当的了解,并且对所要抽取的网页的结构也相当熟悉。在此基础上,通过人工定义所要抽取的信息的结构,来发现抽取模式。这类手工方式构造抽取模式的方法,由于它是人工编写抽取模式,所以它的准确性是比较高的。但是非常耗费人力,由于每个元素的数据都嵌入在文档之中,人需要阅读文档,定位和抽取对应元素的数据,并把抽取出来的数据输入到一个用户接口。其中用户接口比直接编辑XML要方便一...

展开>> 收起<<
基于XML的Web信息抽取与集成技术的研究.doc

共29页,预览3页

还剩页未读, 继续阅读

作者:李琳琳 分类:高等教育资料 价格:15积分 属性:29 页 大小:1020.5KB 格式:DOC 时间:2024-10-14

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 29
客服
关注