基于关联规则的湖北短期气候预测应用初探

| 浏览次数:

zoޛ)j馐)*+m5iRnӝ{uMyyM
LDM?vMz6hȧx3m=]5٨ky方案,建立了一个关联规则挖掘系统。

1 关联规则挖掘技术分析

关联规则挖掘[13-14]是从大量的数据中挖掘出有价值的描述数据项之间相互联系的信息技术之一。通常关联规则具有以下形式:

XY(S%,C%),即“X1∩X2∩…∩ XM→ Y1∩Y2∩…∩YN”;其中Xi(i∈{1,…,M})和Yj( j ∈{1,…,N})均为属性值,C%表示确信度(Confidence),S%表示支持度(Support)。支持度S%表示X和Y项集同时出现的概率,而确信度C%表示X项集出现的前提下Y项集出现的概率,两者之间存在特定关系,Confidence(XY)= Support(Xi∪Yj)/ Support(Xi)。

如果将某区域气候状况看成属性Y,而将前期多个气象因素实况看成属性X,就可通过设定支持度S,利用关联规则挖掘技术找到一些有用的关联规则或联系,这些规则具有用户给定的支持度,这是非常有意义的。

2 数据挖掘系统总体结构

2.1 数据挖掘系统的组成

2.1.1 数据库或数据仓库。它表示挖掘系统主要是由数据仓库、数据表单或其他信息数据库组成。一般需要使用数据清洗和数据集成等操作过程,对这些数据信息进行预处理。

2.1.2 数据库服务器。它是负责根据用户的数据挖掘请求读取相关的数据。

2.1.3 知识库。用于存放数据挖掘所需要的知识,这些知识将用于指导数据挖掘的搜索过程,或用于帮助对挖掘结果的评估,如用户根据预测经验定义的阈值就是最简单的知识。

2.1.4 数据挖掘引擎。这是数据挖掘系统的最基本部件,它通常包含一组挖掘功能模块,完成关联分析或分类归纳、进化计算和偏差分析等挖掘功能。

2.1.5 规则评估模块。该模块可根据标准,协助数据挖掘模块更快地收敛到有意义的知识,该模块能否与数据挖掘模块有机结合,与数据挖掘模块所使用的具体挖掘算法有关。

2.1.6 可视化用户界面。该模块帮助用户与数据挖掘系统本身进行交互操作。一方面用户通过该模块可以将自己的参数或任务提交给挖掘系统,以及提供挖掘搜索所需要的相关知识;另一方面系统通过模块向用户展示或解释数据挖掘的结果;此外该模块还可以帮助用户浏览数据对象内容与数据定义模式、评估所挖掘出的模式规则,以及以多种形式展示挖掘出的模式规则。

2.2 数据挖掘系统的结构 数据挖掘是属于在线分析处理(OLAP)的高级阶段,其数据分析能力远超过以数据汇总为主的在线分析处理功能,它能够实现来自多学科技术的有机结合,这些技术包括数据库、数理统计、高性能计算、模式识别、神经网络、数据可视化、信息检索分析等技术。目前较为成熟的“数据挖掘系统”有很多,2012~2013年基于Apriori算法初步建立了一个基于关联规则的挖掘系统,建立了数据库服务器和数据库表、基于阈值的气象知识库、基于Apriori算法等方法的数据挖掘算法库,初步实现了阈值调整、参数配置以及规则显示等功能。系统结构示意图如图1所示。

3 数据挖掘技术的实际应用

3.1 短期气候预测方法分析 大约50年前,短期天气预报和短期气候预测工作均还处在同一个水平上的业务工作,它们都是根据当地前期的某些实况信息来预测未来的天气变化,准确率均不高。到了今天,因为气象观测系统的发展和数值天气预报的成功,短期天气预报工作已取得了巨大的成功,然而短期气候预测水平还是很低,没有一整套有效的方法。近几十年来,业务工作人员还是进行了大量的研究工作,有人提出“短波制约短期天气,长波制约中期天气,超长波制约长期天气即短期气候”的想法,多年的实践和检验表明,使用大气中的波动也没法根本解决短期气候预测问题。后来又有人又提出了三类短期气候预测方法,一是事件相关统计法,就是从业务实际工作中注意到某2个事件先后出现的现象,采用常规的统计方法进行一段长序列时间的回算,发现它们的相关系数很高,于是用一个事件的发生来预测另一事件的发生。但往往这样的联系本身太少且找出的难度也很大。二是周期规律统计法,该方法认为气候变化的规律可能都隐藏在过去的气候资料的长时间序列之中,人们可以采用各种常规数学统计方法去找到气候资料时间序列中的“周期”等规律,从而做出短期气候的预测。20世纪70年代开始,我国气象部门开展了大量的常规数学统计工作,但其效果被不断地证明是不理想的,业务人员经过分析,认为可能是这些方法的历史拟合率很高,但往往应用到实际预报预测业务工作时,预报预测的准确率均很低。这种现象表明常规数学统计方法发现的“周期规律”不一定是客观存在的,数学方法可以证明的是,若干长度的气候资料内部本来没有因果联系,但通过计算机总是可以找到几对相关系数很高的因子,该类方法可能只是数字的游戏。第三类是数值模式方法,20世纪70年代以来,国内外开展了短期气候预测的数值模式方法研究,其基本理论框架与短期天气预报是一样,也是通过大气动力学方程组、海洋动力学方程组以及热力学方程,采用离散数学以及时间积分等技术进行数值模拟[15-17],该方法被认为可能是短期气候预测工作的未来出路,然而40多年过去了,该方法的技术方案和应用效果并不理想。笔者在此以湖北省汛期降水趋势为对象,采用关联规则分析方法,探讨该方法在湖北短期气候业务中应用的可行性。

3.2 对象选择 短期气候预测一般指月、季以及年际尺度的气候预测,全年和汛期降水情况的预测是气候预测中的重点之一。在此根据湖北省汛期趋势预测的要求,从数据库中选取了与数据挖掘相关的数据,分析了湖北省1951~2005年的降水情况,分全年1~12月、汛期5~9月、夏季6~8月3个时段统计出5个最多雨年份和5个最少雨年份(表1),选择其中汛期5个最多雨的年份为研究对象。

3.3 因子选择 关联规则分析方法中的因子选择非常重要,结合短期气候预测的实际情况,对业务工作中常用的数据和前人的研究成果进行了分析。有人发现湖北异常气象要素的变化与东海、西风环流、极涡、南亚热带、天文因素等方面异常表现有一定关系。如张顺利等通过对青藏高原多雪、少雪的合成分析和数值试验,讨论了青藏高原对亚洲夏季风和我国东部气候的影响,结果表明,高原积雪多,亚洲季风环流弱,亚洲夏季风弱,副热带高压弱,副高位置偏南,长江流域降水多,认为这些因子一方面通过改变下垫面物理性质引起大范围持续时间较长的大气环流变化,从而使得夏季有利于降水产生的天气系统出现,造成主要雨带位置与强度不同[18]。随着对灾害性气候机理和预测研究的不断深入,很多气象专家和气象工作者从不同的角度,采用多种统计方法分析了影响夏季降水的前兆因子[15,19-20]。

根据这些研究成果,结合关联规则分析方法的实际需要,在此选取了北半球500 hPa月平均高度场、北半球100 hPa月平均高度场、北半球SLP月平均气压场、西北太平洋月平均海温场、74项环流特征量、关键区海温指数、东亚季风指数、阻高强度指数等因子,对湖北省汛期降水趋势进行了关联规则分析求解。

3.4 数据预处理 数据预处理主要是对数据进行再加工,包括检查数据的完整性及数据的一致性等,对其中的噪音数据(如缺测数据、错误数据等)进行质量控制处理,对缺测的数据进行填补并将数据转换成为有效形式,建立合适的数据模型。在此对选取的74项大气环流指数以及5个关键区海温指数对应多雨年、少雨年和多年的平均值进行了编号和统计,发现因子序号为0、1、2的因子,多年平均值在多雨年平均和少雨年平均值之间,且多雨年平均值大于少雨年平均值;因子序号为3、14、25等的因子表示历史上有缺测资料,对这种情况按以上数据预处理的原则进行了处理,即忽略对应的数据项;因子序号为7、22、47的因子,多年平均值、多雨年平均以及少雨年平均值之间没有规律,对这类数据项按缺测资料处理。

3.5 数据挖掘算法选取 Apriori算法是产生布尔关联规则所需频繁项集的基本算法,该算法是根据有关频繁项集特性的先验知识而命名的。该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生(k+1)-项集。具体做法就是:首先找出频繁1-项集,记为L1 ;然后利用L1来挖掘L2,即频繁2-项集;不断如此循环下去直到无法发现更多的频繁k-项集为止。每挖掘一层Lk就需要扫描整个数据库一遍。

为提高按层次搜索并产生相应频繁项集的处理效率,Apriori算法利用了一个重要性质,即一个频繁项集中任一子集也应是频繁项集,来帮助有效缩小频繁项集的搜索空间。

3.5.1 Apriori算法详述。输入:数据库D;最小支持度阈值sup_min。输出:D中的频繁项集L。

4 小结

采用Apriori算法,在设定最小支持度0.65以上的情况下,对湖北多降水年进行了求解;求解过程中通过数据划分的方法来减少了I/O次数,即对74项气象环流指数数据集划分为3个逻辑数据块,找出局部频繁项目集,然后将所有局部频繁项目集合并为全局频繁项目集上,在支持度0.65时找到了几组关联规则,如A(75,77)B(1),显示前一年因子75和77即关键区海温指数的第1和3项达到阈值即可认为第二年为多雨,其物理含义是:黑潮区和西风漂流区海温偏低,预示第二年湖北为多雨年。湖北省气象局开发了一个关联规则挖掘系统,实现了因子录入、对象数据录入、阈值设置和规则可视化显示等功能,系统在2013~2014年的应用中效果良好。当降低支持度为0.62时,输出规则多达2 000条以上,由于其规则表述较为复杂,且物理意义尚不清楚,文中没有列出,需要进行进一步的探索。

参考文献

[1] 高梅,张文华.基于气象信息共享系统的雷达资料网络数据库[J].气象科技,2002,30(1):32-36.

[2] 王胜利.新疆省级气象数据库建设及其管理系统软件设计[J]. 新疆气象,2003,26(5):41-42.

[3] 彭骏,刘兴华,陈栋.气象数据在网络结构中的应用模型探讨[J].四川气象,2002(4):44-45.

[4] 覃天信,黄福莹,李漫霜.广西气象台业务数据库系统简介[J]. 广西气象,2001,22(4):43-44.

[5] 易烈刚,杨溢,范元品.基于Internet的气象实时资料查询系统[J].贵州气象,2003,27(3):39-41.

[6] 张帆,武疆艳.历史资料数据库管理系统的研制[J].新疆气象,1998,21(3):29-31.

[7] 何婧,王丽珍,邹力鹃. 基于云南气象数据的空间关联规则挖掘[J]. 计算机工程与应用,2003(34):187-190.

[8] 赵海青,李社宗,周幸福.数据库中的知识发现及其在气象中的应用[J].河南气象,2002(2):35-36.

[9] 黄文玲,陈德军.灰色趋势灾变预测及其在数据挖掘中的应用[J]. 华中科技大学学报, 2005,33(1):55-57.

[10] 郝先臣,张德下.数据挖掘工具和应用中的问题[J].东北大学学报,2001,22(2):183-187.

[11] 曹辉,蔡颖,朱善君.教据仓库技术在电力系统中的应用[J].华北电力技术,2001(3):44-54.

[12] HAN J,CAMBER M.数据挖掘:概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2001.

[13] 陈德军.一般灰色趋势关联系统及其分析方法研究[J].华中科技大学学报,2003,31(8):82-84.

[14] 陈绵云.趋势关联度及其在灰色建模中的应用[J].华中理工大学学报,1994,22(8):64-68.

[15] 王革丽.时空结构对短期气候预测影响的初步分析[J].气候与环境研究,2005,10(2):193-200.

[16] 顾群.顾节经. 短期气候预测的物理基础和诊断预测[J]. 辽宁气象,2004(4):10-11.

[17] 赵振国.我国短期气候预测的业务技术发展[J].山东气象,2001(3):4-7.

[18] 张顺利,陶诗言.青藏高原积雪对亚洲夏季风影响的诊断及数值研究[J].大气科学,2001,25(3):372-390.

[19] 陈菊英.山东区域汛期旱涝预测概论[J].山东气象,2001(3):12-17.

[20] 王锦贵,许君强.东北地区夏季低温与旱涝预测系统研究[M].北京:气象出版社,2000.

推荐访问: 湖北 初探 关联 气候 规则

【基于关联规则的湖北短期气候预测应用初探】相关推荐

工作总结最新推荐

NEW
  • XX委高度重视党校的建设和发展,出台《创建全省一流州市党校(行政学院)实施方案》及系列人才培养政策,为党校人才队伍建设提供了有力的政策支撑。州委党校在省委党校的悉心指导下、州委的正确领导下,深入贯彻落

  • 为推动“不忘初心、牢记使命”主题教育常态化,树牢“清新简约、务本责实、实干兴洛”作风导向,打造忠诚干净担当、敢于善于斗争的执纪执法铁军,经县纪委常委会会议研究,决定在全县纪检监察系统开展“转变作风工作

  • 为进一步发展壮大农村集体经济,增强村级发展活力,按照中共XXX市委抓党建促乡村振兴工作领导小组《关于印发全面抓党建促乡村振兴四个工作计划的通知》要求,工作队与村“两委”结合本村实际,共同研究谋划xx村

  • 今年来,我区围绕“产城融合美丽XX”总体目标,按照“城在林中,水在城中,山水相连,林水相依”以及“城乡一体、景城一体、园城一体”的建设思路,强力推进城市基础设施建设、棚户区改造、房地产开发和城市风貌塑

  • 同志们:新冠疫情发生至今已有近三年时间。三年来,在广大干群的共同努力下,我们坚决打好疫情防控阻击战,集团公司范围内未发生一起确诊病例,疫情防控工作取得了阶段性胜利。当前国际疫情仍在扩散蔓延,国内疫情多

  • 我是毕业于XX大学的定向选调生,当初怀着奉献家乡、服务人民的初心回到XX,在市委的关心关爱下,获得了这个与青年为友的宝贵历练机会。一年感悟如下。一要对党忠诚,做政治坚定的擎旗手。习近平总书记指出,优秀

  • 同志们:今天召开这个会议,主要任务是深入学习贯彻习近平总书记重要指示批示精神,以及李克强总理批示要求,认真落实全国安全生产电视电话会议和全省、全市安全生产电视电话会议精神,研究我县安全生产和安全隐患大

  • 2022年市委政研室机关党的建设工作的总体要求是:坚持以XXX新时代中国特色社会主义思想为指导,全面贯彻党的XX届X中X会和省、市第十二次党代会精神,自觉运用党的百年奋斗历史经验,弘扬伟大建党精神,深

  • 同志们:今天,我们在这里召开市直机关基层党建示范点工作会议,一方面是对各示范点单位进行表彰授牌,另一方面是想通过这种会议交流的方式,给大家提供一个相互学习、取长补短的平台和机会。市直工委历来把创建基层

  • 新冠疫情暴发以来,学校党委坚决贯彻习近平总书记关于疫情防控工作的指示要求和党中央的决策部署,严格执行×××部、×××厅关于疫情防控的系列要求,认真落实驻地防疫部门的工作举措,继承发扬优良传统,以最高标