基于标签的信息抽取预处理算法

| 浏览次数:

[摘 要]针对现有现有HTML网页的特点,提出了一种基于标签的Web 网页的清洗技术,该方法基于HTML各种标签的特点,对修饰性等与内容无关的标签进行清洗,首先界定清洗的规则,对可清洗的标签进行定义;然后根据清洗规则对HTML网页进行处理。本论文所提方法没有改变文档的半结构特点,使后续信息的抽取较之未改进有明显的优势。

[关键词]标签 规则 网页清洗

[中图分类号]S896.1[文献标识码]A[文章编号]1007-9416(2009)11-0107-02

1 引言

HTML是一种基于标签的网页开发语言,其开发的网页是一种半结构化的数据,可以根据标签来判定页面的实体内容。一个HTML文档由一系列的元素和标签组成,元素名不区分大小写,HTML用标签来规定元素的属性和它在文件中的位置。在HTML文档中,标签是成对出现的,开始标签和结束标签对每个元素来说是必须的,但由于网页浏览器的容错性,使得Web网页上的HTML很不规范,甚至出现一些错误的HTML标记文件,例如缺少匹配的结束标签等等,但是这在浏览器上仍然能正常的显示,这使得网页源码显得层次错乱,层次性很差,进而对Web信息的抽取造成了很大的障碍。另一方面,HTML文档中有相当一部分的内容,对于信息的提取没有意义,如一些脚本语言、标签属性、部分类型的标签和装饰性标签等等,这些都影响了信息抽取的效率和精确度。本文提出的基于标签的方法对提高信息抽取的效率和精确度有很好的改善。

2 清洗规则界定

针对HTML网页中大量的装饰性和无实际内容的标签,本文采取的方法,充分利用源码中标签的特点,可以准确地标记元素之间的嵌套关系。另外,为了删除页面上的噪音信息,提出了一种内容无关标签删除规则,对页面标签元素进行清洗。相关原则定义:

原则一:标签的属性删除,如;

原则二:注释、脚本语言、内联代码、命名空间和 等内容删除,如;

原则三:内容为空的标签删除,如;

原则四:select和input及其相关的标签可删除;

原则五:具有隐藏属性的标签可删除,如hidden类型;

原则六:样式标签可删除,如style、font等;

原则七:超链接可删除,如

以上原则构成可删除元素集合DELETE,需要声明的是,以上原则并不是固定的,可以根据需要对DELETE集合进行扩展和缩减。

3 清洗算法定义

根据上面的思想和可删除元素集合DELETE,本文给出一个网页清洗的算法,来根据源码标签实现网页的清洗,定义算法CleaningHTMLTool:

输入:HTML相关的源码HTMLSourse

输出:清洗后的HTML文档

结构算法:

Algorithm ClearningHTMLTool(prePtr, HTMLSourse)

(1)for each element curElem in HTMLSourse

(2)if(curElem in DELETE)

(3)delete curElem;

(4)while(outerElem’s content is null)

(5) prePtr=outerElem->parent;

(6)delete outerElem;//递归删除外层空标记

(7)update CleanedHTMLSource;

(8)else

(9)输出此标签及信息;

(10) return CleanedHTMLSource;

本段代码描述了网页清洗的方法,首先将包含在集合DELETE中的可删除元素删除(代码2~3),代码4~7通过递归调用删除无主题内容信息的标签,并最终输出经过清理的HTML源码。上面的工作对源码清除了一些脚本语言、标签属性、部分类型的标签和装饰性标签等,为了更好的适应适应后续处理,需要对清洗后的源码进行相应的结构化处理,因为经过此算法清洗后的网页仍是一个半结构化的文档,仍需对其进行结构化处理。

4 结构化处理

在目前,绝大多数的Web网页采用HTML语法格式,其中包含文字、标记、图片和超链接等内容。HTML中的数据和格式由标记来封装,多数的标一记由一对起始标记和结束标一记组成,并且在文档中成对出现,例如和。标记与标记之间可以并列出现,或者一对标记及其内容完全包含在另一对标一记的内容中从而产生标记嵌套。由于缺乏严格的语法定义,而且浏览器通常忽略语法分析,不检查语法的正确性。如HTML文档中经常出未封闭的标签、没有结束标签、标签嵌套不合理、属性值不包含在们,中等等,这使得我们对HTML页面进行分析增加了难度,也使得其他工具在处理HTML文件时产生各种不兼容的问题,增加了处理的复杂度,而且某些严重的错误会造成页面解析失败。

在采用XML技术对清洗的HTML网页(CleanedHT MLSource)进行信息抽取时,有个基本的问题需要解决:CleanedHT MLSource文档向XHTML文档的转换,针对W3C标准对HTML进行结构化,在本文中主要是对清洗后的HTML代码进行转换,即把清洗后的HTML文档转化为符合XML格式XHTML文档。

CleanedHTMLSource结构化,CleanedHTMLSource主要是删除集合DELETE后的内容,但由于当前HTML文档有些是用工具辅助写的,有些是手工完成的,许多没有完全遵守W3C制定的标准,是有错误的,从而使CleanedHTMLSource也是不标准的,仍然是半结构化的。因此在信息的抽取前有必要进行CleanedHTMLSource的整理工作,即需要对CleanedHTMLSource进行结构化处理,使得清洗后的文档变为符合XML技术的XHTML文档。

使用由HTML-Tidy库提供的功能可以在xMLHelPltidyHTM功方法中转换,把URL作为参数进行方法调用,输出结果生XML文档格式,如下算法可以实现:

输入:CleanedHTMLSource文档; //清洗后的HTML文档

输出:标准的XHTML文档;

(1)输入CleanedHTMLSource文档;

(2)定义TIDY对象,并置setXmlout参数为真;

(3)对函数进行转换;

(4)输出标准的XHTML文档;

本文是基于Visual Studio.NET平台实现,本文采用Ntidy来实现,它是在Tidy基础上的.Net封装接口,可以很容易实现HTML到XHTML的转换。

5 结语

本文给出了一种基于标签的信息抽取预处理算法,根据标签的各自的功能和作用界定了清洗规则,对可清洗的标签进行定义,对修饰性等与内容无关的标签进行清洗;然后对清洗后的HTML网页进行结构化处理。本论文所提方法没有改变文档的层次特点,使后续信息的抽取较之未改进有明显的优势;此算法处理后的文档,对后续基于XML的信息抽取的效率和准确度都有较大的优点。

[参考文献]

[1] 刘兵.Web数据挖掘[M].北京:清华大学出版社,2009.

[2] 色菲,王佳.基于XML描述的Web信息抽取技术的研究[J].计算机与信息技术,2007.

[3] 刘斌.基于Web的HTML网页清洗技术的研究与实现[D].北京:华北电力大学,2007.

[4] 李嘉佑,贾自艳,何清.基于Web挖掘的网页清洗技术[J].北京:计算机工程与应用,2006.

推荐访问: 预处理 抽取 算法 标签 信息

【基于标签的信息抽取预处理算法】相关推荐

工作总结最新推荐

NEW
  • XX委高度重视党校的建设和发展,出台《创建全省一流州市党校(行政学院)实施方案》及系列人才培养政策,为党校人才队伍建设提供了有力的政策支撑。州委党校在省委党校的悉心指导下、州委的正确领导下,深入贯彻落

  • 为推动“不忘初心、牢记使命”主题教育常态化,树牢“清新简约、务本责实、实干兴洛”作风导向,打造忠诚干净担当、敢于善于斗争的执纪执法铁军,经县纪委常委会会议研究,决定在全县纪检监察系统开展“转变作风工作

  • 为进一步发展壮大农村集体经济,增强村级发展活力,按照中共XXX市委抓党建促乡村振兴工作领导小组《关于印发全面抓党建促乡村振兴四个工作计划的通知》要求,工作队与村“两委”结合本村实际,共同研究谋划xx村

  • 今年来,我区围绕“产城融合美丽XX”总体目标,按照“城在林中,水在城中,山水相连,林水相依”以及“城乡一体、景城一体、园城一体”的建设思路,强力推进城市基础设施建设、棚户区改造、房地产开发和城市风貌塑

  • 同志们:新冠疫情发生至今已有近三年时间。三年来,在广大干群的共同努力下,我们坚决打好疫情防控阻击战,集团公司范围内未发生一起确诊病例,疫情防控工作取得了阶段性胜利。当前国际疫情仍在扩散蔓延,国内疫情多

  • 我是毕业于XX大学的定向选调生,当初怀着奉献家乡、服务人民的初心回到XX,在市委的关心关爱下,获得了这个与青年为友的宝贵历练机会。一年感悟如下。一要对党忠诚,做政治坚定的擎旗手。习近平总书记指出,优秀

  • 同志们:今天召开这个会议,主要任务是深入学习贯彻习近平总书记重要指示批示精神,以及李克强总理批示要求,认真落实全国安全生产电视电话会议和全省、全市安全生产电视电话会议精神,研究我县安全生产和安全隐患大

  • 2022年市委政研室机关党的建设工作的总体要求是:坚持以XXX新时代中国特色社会主义思想为指导,全面贯彻党的XX届X中X会和省、市第十二次党代会精神,自觉运用党的百年奋斗历史经验,弘扬伟大建党精神,深

  • 同志们:今天,我们在这里召开市直机关基层党建示范点工作会议,一方面是对各示范点单位进行表彰授牌,另一方面是想通过这种会议交流的方式,给大家提供一个相互学习、取长补短的平台和机会。市直工委历来把创建基层

  • 新冠疫情暴发以来,学校党委坚决贯彻习近平总书记关于疫情防控工作的指示要求和党中央的决策部署,严格执行×××部、×××厅关于疫情防控的系列要求,认真落实驻地防疫部门的工作举措,继承发扬优良传统,以最高标