[综述]话题检测与跟踪的评测及研究综述

| 浏览次数:

摘 要:话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。

关键词:计算机应用;中文信息处理;综述;话题检测与跟踪;自然语言处理;事件;新闻报道

中国分类号:TP391 文献标识码:A

1 引言

话题检测与跟踪(Topic Detection alld Track-ing,简写为TDT)起源于早期面向事件的检测与跟踪(Event Detection and Tracking,简写为EDT)。TDT面向多语言文本和语音形式的新闻报道,主要从事报道边界自动识别、锁定和收集突发性新闻话题、跟踪话题发展以及跨语言检测与跟踪等相关任务。与EDT不同,TDT检测与跟踪的对象从特定时间和地点发生的事件扩展为具备更多相关性外延的话题,相应的理论与应用研究也同时从传统对于事件的识别跨越到包含突发事件及其后续相关报道的话题检测与跟踪。

TDT的任务以及评测体系是由美国国防高级研究计划局(DARPA)、马萨诸塞大学(Universityof Massachusetts)、卡耐基一梅隆大学(CarnegieMellon University)和Dragon Systems公司联合制定和设计完成的。来自这些单位的学者历经一年的时间对TDT进行了前瞻性的研究(1996~1997,Pilotstudy),包括检验当前普遍应用于信息检索(Infor-marion Retrieval,简写为IR)和信息抽取(InformationExtraction,简写为IE)等领域的技术是否能够有效解决TDT问题,以及鉴定和设计统一标准的评测规范。虽然大部分IR和IE技术都可以应用于早期的EDT,但过高的误检率说明该领域仍然具备很大的探索空间,尤其对于拓展后的TDT则暴露了更多现有技术的缺陷。因此探索更适合于TDT任务的创新性研究对自然语言领域的发展具有重要意义。

TDT涉及两类最主要的信息获取问题,即信息的检测与集成、信息的采集与跟踪。这两方面的研究课题分别与目前信息检索(IR)和信息过滤(In-formation Filtering,简写为IF)对应的问题非常相似。在IR系统中,用户通过动态地定义需求(Query),从海量信息中检索满足自己当前兴趣的信息,信息以相关度为尺度进行组织、集成与反馈;而在IF系统中,用户通过定义静态的用户需求(Profile),从动态变化的信息流中实时地获取相关知识,这种知识的获取方法侧重于跟踪信息的时空进程并将最新的相关信息反馈给用户。基于这些相似点,许多基于IR和IF的信息获取技术都相应地应用于TDT并获得了良好的效果,尤其近期逐渐发展起来的个性化信息检索技术和自适应信息过滤技术,都与TDT研究具有更深层次的共性。但是,TDT在许多方面与IR和IF存在差异,比如对于TDT的新事件检测任务(New Event Detection,简称为NED),系统欠缺任何话题的先验知识,TDT系统必须在对话题毫不了解的情况下,自主地进行识别与检测,这一点与具备了背景知识或先验需求的IR系统截然不同。同时,话题检测系统通常需要维护固定的存储空间保存曾经发生过的话题线索,从而作为衡量新话题的背景信息。对于话题跟踪而言,话题对应的“Query”是隐含给定的,构成话题的是若干(1~4篇)相关报道样本,这与具备明确需求(Profile)的IF问题也不相同。因此,面向IR和IF的相关方法更多地作为TDT的基础研究,而不能完全解决TDT的相关问题。

本文简要介绍TDT任务与评测的相关知识,重点论述和分析近期国内外在该领域的相关研究及其相互关系,并在篇尾展望TDT领域的未来发展趋势。本文组织结构如下,第二章和第三章分别介绍TDT使用的语料和评价体系;第四章简要介绍话题的含义及其与事件的区别,并概述TDT任务的定义与要求;第五章着重探讨TDT研究的层次关系及体系结构;第六章和第七章分别回顾TDT国内和国外的研究现状;第八章概述TDT领域的研究趋势;第九章结论。

2 TDT语料

LDC为TDT方向的研究提供了五期语料,分别是TDT预研语料、TDT2、TDT3、TDT4和TDT5。TDT语料是选自大量新闻媒体的多语言新闻报道集合。其中,TDT5只包含文本形式的新闻报道,而其他语料同时包含文本和广播两种形式的新闻报道。本章简要介绍各语料的组成、描述及其区别。

2.1 语料组成

TDT评测最早使用的语料是TDT预研语料(TDT pilot corpus,简称TDT-Pilot)。TDT-Pilot收集了1994年7月1日到1995年6月30日之间约16 000篇新闻报道,主要来自路透社新闻专线和CNN新闻广播的翻录文本。TDT-Pilot标注过程没有涉及话题的定义,而是由标注人员从所有语料中人工识别涉及各种领域的25个事件作为检测与跟踪对象。TDT2收集了1998年前六个月的中英文两种语言形式的新闻报道。其中,LDC人工标注了200个英文话题和20个中文话题。TDT3收集了1998年10月到12月中文、英文和阿拉伯文三种语言的新闻报道。其中,LDC对120个中文和英文话题进行了人工标注,并选择部分话题采用阿拉伯文进行标注。TDT4收集了2000年10月到2001年1月英文、中文和阿拉伯文三种语言的新闻报道。其中,LDC分别采用三种语言对80个话题进行人工标注。TDT5收集了2003年4月到9月的英文、中文和阿拉伯文三种语言的新闻报道。LDC对250个话题进行了人工标注,其中25%的话题同时具有三种语言的表示形式,其他话题则以相同的比例均匀地分配给三种语言分别进行标注。此外,TDT5中每种语言的话题来自该语言当地媒体的报道。

LDC根据报道与话题的相关性对所有语料进行标注。其区别在于TDT2与TDT3采用三类标注形式,而TDT4与TDT5采用两种标注形式。前者使用“YES”、“BRIEF”和“N0”作为报道与话题相关程度的标识。当报道论述的内容与话题绝对相关时标注为“YES”,而报道与话题相关的内容低于本身的10%则标注为“BRIEF”,否则标注为“NO”。TDT4与TDT5只采用相关“YES”和不相关“No”

推荐访问: 综述 跟踪 评测 检测 话题

【[综述]话题检测与跟踪的评测及研究综述】相关推荐

工作总结最新推荐

NEW
  • XX委高度重视党校的建设和发展,出台《创建全省一流州市党校(行政学院)实施方案》及系列人才培养政策,为党校人才队伍建设提供了有力的政策支撑。州委党校在省委党校的悉心指导下、州委的正确领导下,深入贯彻落

  • 为推动“不忘初心、牢记使命”主题教育常态化,树牢“清新简约、务本责实、实干兴洛”作风导向,打造忠诚干净担当、敢于善于斗争的执纪执法铁军,经县纪委常委会会议研究,决定在全县纪检监察系统开展“转变作风工作

  • 为进一步发展壮大农村集体经济,增强村级发展活力,按照中共XXX市委抓党建促乡村振兴工作领导小组《关于印发全面抓党建促乡村振兴四个工作计划的通知》要求,工作队与村“两委”结合本村实际,共同研究谋划xx村

  • 今年来,我区围绕“产城融合美丽XX”总体目标,按照“城在林中,水在城中,山水相连,林水相依”以及“城乡一体、景城一体、园城一体”的建设思路,强力推进城市基础设施建设、棚户区改造、房地产开发和城市风貌塑

  • 同志们:新冠疫情发生至今已有近三年时间。三年来,在广大干群的共同努力下,我们坚决打好疫情防控阻击战,集团公司范围内未发生一起确诊病例,疫情防控工作取得了阶段性胜利。当前国际疫情仍在扩散蔓延,国内疫情多

  • 我是毕业于XX大学的定向选调生,当初怀着奉献家乡、服务人民的初心回到XX,在市委的关心关爱下,获得了这个与青年为友的宝贵历练机会。一年感悟如下。一要对党忠诚,做政治坚定的擎旗手。习近平总书记指出,优秀

  • 同志们:今天召开这个会议,主要任务是深入学习贯彻习近平总书记重要指示批示精神,以及李克强总理批示要求,认真落实全国安全生产电视电话会议和全省、全市安全生产电视电话会议精神,研究我县安全生产和安全隐患大

  • 2022年市委政研室机关党的建设工作的总体要求是:坚持以XXX新时代中国特色社会主义思想为指导,全面贯彻党的XX届X中X会和省、市第十二次党代会精神,自觉运用党的百年奋斗历史经验,弘扬伟大建党精神,深

  • 同志们:今天,我们在这里召开市直机关基层党建示范点工作会议,一方面是对各示范点单位进行表彰授牌,另一方面是想通过这种会议交流的方式,给大家提供一个相互学习、取长补短的平台和机会。市直工委历来把创建基层

  • 新冠疫情暴发以来,学校党委坚决贯彻习近平总书记关于疫情防控工作的指示要求和党中央的决策部署,严格执行×××部、×××厅关于疫情防控的系列要求,认真落实驻地防疫部门的工作举措,继承发扬优良传统,以最高标