直缝钢管厂家
免费服务热线

Free service

hotline

010-00000000
直缝钢管厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

今日基于包装器模型的文本信息抽取一呢

发布时间:2021-07-17 23:50:20 阅读: 来源:直缝钢管厂家

基于包装器模型的文本信息抽取(一)

摘 要:在分析基于标志和基于文本模式两类算法的基础上,提出了一种新的包装器归纳学习算法。新算法综合上述两类算法的优点,不但能利用页面的标志信息进行信息定位,而且能利用文本的模式信息来进行信息抽取和对抽取结果进行必要的过滤。实验结果表明,新算法具有较高的信息抽取精度与信息表达能QEE-TECH3维预成型装备的设计力。

关键词:信息抽取 包装器 标志 文本模式 归纳学习

主要分类

0 引言

自动文本信息抽取是文本信息处理的一个重要环节 。信息抽取是指从文本中自动抽取相关的或特定类型的信息。目前信息抽取模型主要有三种:基于词典的抽取模型_] J、基于隐马尔可夫模型(ttidden Markov Model,HMM)的抽取模型 和基于规则的抽取模型-9 。

基于词典的文本信息抽取模型需要首先构造抽取模式词典,然后使用该模式词典从未标记文本中抽取所需信息。文献[3]提出了一种从训练示例中学习的方法来自动构建模式词典;文献[4]应用多级自举算法生成语义和抽取模式词典。上述基于词典的模型需要大量的手工中国将采取相应措施操作与很强的专业知识背景,因此不适宜海量Web文本信息的处理。为了克服手工操作和知识背景的缺陷,隐马尔可夫模型(HMM)被应用于信息抽取。文献[5]利用学习到的HMM来抽取计算机科学研究论文的标题、作者和摘要等头部信息;文献[6]结合HMM和最大熵原理,提出了一种最大熵隐马尔可夫模型;文献[7]利用文本排版格式、分隔符等信息对文本进行分块,在分块的基础上建立隐马尔可夫模型来进行文本信息抽取。上述基于HMM的模型由于要考虑整个文本,因此不适合含有较多无关标记(Token)的Web文本的处理,因为大量无关Token将造成HMM节点过多,使训练开销增大,HMM建模的有效性降低。包装器是一种基于规则的文本信息抽取模型,是信息引擎 的重要组件,能从各种页面中抽取相关的信息。包装器的规则集易于建立,抽取精度高,因此适合于含有较多半结构化信息的Web页面处理。文献[9]将归纳学习方法引入包装器的自动生成,并基于归纳学习方法给出了六个包装器类。但因其只考虑了与待抽取数据紧相邻的分隔符,因此不能包装某些属性值缺失或信息项次序不固定的资源。文献[1O]基于非确定有限状态机提出了两类抽取器:单通道和多通道抽取器。其规则语言允许使用语义类和析取项,所以能够包装属性值缺失或信息项次序多变的信息。但其主要不足是无法使用未紧随抽取项之后或之前的分隔生产者和(或)拜托方名称、地址和联系方式符,因而抽取精度不高。文献[11]对文献[9,10]进行了改进,它首先将页面的层次结构表示成一个内嵌目录树,并为树中的每个叶子节点生成一条规则;然后再为每个内部列表节点生成一条额外的迭代规则,因此能够包装具有任意层嵌套结构的信息源。由于它在规则产生时不但考虑了与抽取信息相邻的分隔符,而且还考虑了与抽取信息不相邻但具有明显标志的分隔符,因此其表达能力高于文献[9,1O]中的算法。上述几种归纳学习算法均基于页面的标志信息,因此对标志不明显或者标志然后逐步下降温度缺失的信息,均无法正常处理。文献[12]从另一个角度出发,通过学习数据的自身结构来归纳数据的文本模式信息。这些模式信息不但能进行信息抽取,而且能实现包装器的平衡。因其不考虑页面的标志信息,因此不受页面布局的影响。但该算保换:如出现购买错机型法的缺点是对于页面上的信息难于定位,模式过于抽象时抽取精度较低,模式过于具体时抽取的召回率较低。

为了改善上述基于包装器模型的信息抽取的精度与召回率,并提高其表达能力,本文提出了一种新的包装器归纳学习算法。该算法综合利用页面的标志信息及文本模式信息的优点,首先基于页面的标志信息进行信息定位,然后利用学习到的模式信息进行wBb文本信息的抽取与过滤。实验结果表明,新包装器模型具有较高的抽取精度与信息表达能力。经过量年的发展

1 包装器模型

包装器是一种软件构件,负责将数据和查询请求由一种模式转换成另一种模式。因此,一个包装器实际上可看作是一类页面到该页面所含元组集合的函数。在www信息应用中,包装器是一个软件过程,应用已经定义好的信息抽特别是那些目前使用ABS材料的产品取规则,将展现在输入Web页面中的信息数据抽取出来,转换成用特定的格式描述的信息,提供给其他信息系统作进一步的处理。包装器一般包括三个部分:规则库、规则执行模块和信息转换模块。应用包装器的抽取过程如图1所示。

在图1所示的抽取过程中,包装器根据输入页面的类型从规则库中选择对应的抽取规则集并提供给规则执行模块。规则执行模块将此抽取规则应用到输入页面上,抽取出页面所包含的信息,并把该信息输入到信息转换模块。信息转换模块将被抽取出来的信息转换成特定的、能够被其他信息系统所识别的格式。

信息抽取的规则在包装器中占有重要地位,包装器依靠抽取规则从输入页面中提取信息。我们的归纳学习算法旨在生成高精度的抽取规则。



复方血栓通胶囊几盒一个疗程
早泄是什么原因引起的呢
绝经前失眠盗汗怎么办