基于移动互联网大数据的异构实时计算框架分析

| 浏览次数:

摘  要:移动互联网的快速发展,让人人都成为消息的传播者,对于扁平化架构的网络,监控工作需要运营商付出大量成本支出,为满足互联网大数据的需要,还需要进一步研究。因此,本文基于大数据处理技术及安全机制,分析了大数据计算现状,并对异构实时计算框架进行了重点研究和分析。

关键词:移动互联网;大数据处理技术;异构实时计算

中图分类号:TN929.5;TP393.01      文献标识码:A 文章编号:2096-4706(2019)15-0183-03

Analysis of Heterogeneous Real-time Computing Framework Based on

Big Data of Mobile Internet

FU Xuelei

(Guangdong Preschool Normal College in Maoming,Maoming  525200,China)

Abstract:The rapid development of mobile internet makes people become the disseminators of news. For the network of flat architecture,the monitoring work requires operators to pay a lot of cost. In order to meet the needs of big data on the internet,further research is needed. Based on this,this paper analyzes the current situation of big data computing based on big data processing technology and security mechanism,and focuses on the analysis of heterogeneous real-time computing framework.

Keywords:mobile internet;big data processing technology;heterogeneous real-time computing

0  引  言

我国即将步入5G时代,移动互联网将步入新时期,如今LTE网络数据占据70%以上的移动互联网,局部区域呈现出用户密度高、流量大的特征,移动运营商需要及时掌握社会热点,才能为客户提供个性化服务。互联网使用OTT产品实现跨界融合和网络运营商竞争,让传统运营商受到极大威胁,运营商在用户体验基础上,尽量减少成本,以应对市场竞争,满足企业发展需求。因此,研究异构实时计算对于运营商具有重要意义。

1  大数据处理技术及安全机制

1.1  主流处理技术

在大数据技术的快速发展下,具体处理技术越来越多,从目前应用较为广泛的处理技术来看,主要包括:

(1)Hadoop离线批处理技术。Hadoop本身属于Apache的一个分布式框架,能够在简单硬件设备集群上运行应用程序,并提供稳定接口,具有较好的可靠性和易扩展性。在Hadoop 2.X版本中引入的YARN资源管理模块,与HDFS模块、MapReduce模块共同构成其三大核心模块,支持海量数据存储、云系统资源分配和海量数据分析计算等功能。

(2)Storm架构处理技术。此技术主要在分布式实时数据流处理方面具有明显优势,适用场景包括机器学习、实时分析、持续计算等,具有较强的容错性,可保证数据处理的全面性,而且数据处理速度非常快,每节点每秒可处理数百万条信息数据。而且Storm架构本身部署方便,支持多種语言的程序开发。

(3)Spark架构处理技术。Spark本身是一个大规模数据处理引擎,采用内存运算技术,能够节省运算过程中的数据存储时间。而且Spark是开源框架,支持迭代开发,已经形成独立生态系统,应用较为广泛。可以将Spark作为基础,兼容Hadoop部分组件,支持数据库查询工具等的使用,贴近于用户使用习惯。

1.2  不同处理技术优缺点

上述几种技术都是目前主流的大数据处理技术,且三种技术各有各的优缺点。其中,Hadoop使用时间较早,经过多次的版本升级,目前功能性能较为完善,主要擅长海量数据存储和分析工作,适用于对实时响应要求不高的场景。Storm架构处理技术则与Hadoop不同,主要擅长实时流式分析处理,在处理无界数据流方面有显著优势,适合在对实时响应要求较高的场景使用。Spark框架处理技术与Hadoop相似,也属于批量处理方法,其特点是计算性能强,适用于交互查询、迭代计算等大数据应用场景。通过对大数据处理技术进行合理选择,可以最大化的发挥其应用优势。

1.3  大数据处理技术的安全机制

无论选择何种大数据处理技术,都需要对其数据安全性提供保障。上述介绍的几种大数据处理框架,在实际应用过程中通常以大规模集群方式部署,从而保障系统的大规模并行计算能力。但在该模式下,也需要注意框架内各层次堆栈集成、各节点之间、集群与客户端之间的通信安全问题。以目前较为成熟的Hadoop离线批处理技术为例,在其早期研究中,安全问题就受到了高度重视,并已经取得重要成果。目前Hadoop大数据处理技术主要通过采用用户认证、用户授权、数据存储加密、数据灾备技术等,为数据安全性提供保障。通过采取先进的安全防护措施,可以在保证集群数据安全的同时,提高数据加解密速度,降低不必要的数据存储消耗。对于Spark和Storm技术也是如此,需要不断优化其安全保护机制,为大数据处理技术的推广应用奠定基础。

2  大数据计算现状

运营商建立了DPI一体规范,移动互联网数据主要可以分成控制面和用户面两个种类的原始数据,包括多个接口。移动互联网数据具有数量大、接口多的特征,传统分析方法建立在单一接口基础上,使用XDR方法储存数据。利用该种方案不需要使用过于复杂的部署探针,响应速度相对快速,但是由于其解析速度相对较慢,且无法和其他接口建立关联,没有办法提供整体性反馈,无法通过计算分析网络单用户、业务以及网元等指标。

为实现大规模收集数据,接入设备还需自动识别链路逻辑接口,才能实现设备接入。为保证通信网络不会受到影响,要按照规定格式数据包对通信网络实施封装,解析设备可以输出数据,设备负责解码、合成、关联以及回填用户面原始数据和信令面原始数据,最后形成规范XDR,提供给服务器使用。数据库难以应付多于10TB的数据,处理该量级数据会造成响应速度缓慢。需要通过建立异构实时计算框架对数据进行管控,该计算框架具备可调节、可扩展、大规模的优势,可以满足运营商管理要求,对平台数据进行开放管理。

3  异构实时计算框架分析

3.1  总体框架

如今各信息系统已经实现了和3G、4G、LTE的结合,在高速索引、内存计算、高度容错等先进技术的辅助下,系统从100MB升级为100PB。无论哪一个数量级都拥有最佳处理性能,在流量不断增加的情况下,实现了动态化扩容,且具备自由伸缩的功能。系统整体架构为:XDR详单→ Flume→Kafka→Spark Streaming/Storm→Kafka/Hbase/ Oracle→应用层。

3.2  高速探针

高速探针在软件和硬件结合的基础上,让数据包完整及时地被接收。系统使用汇聚交换机完整收集逻辑接口数据,实现收敛汇聚。借助于ATCA探针架构,板块具备40Gbit/s线速能力,包含12千兆/万兆光口,端口使用ASIC数据包对Buffer实时接收,通过双重捡拾技术的应用有效规避丢包问题的出现,避免了阻塞问题。

系统通过多核网絡处理板处理机制,并利用分布式数据库,实现了用户面和信令面数据的完整解析、回填以及关联,数据经过处理后可实时传送给SDTP协议,以及流式服务器,形成实时数据运算。

为满足计算准确性,通过以下手段实现:

(1)硬件ASIC统计端口接收包,分析比较输入和输出端储存的数据包和流量。

(2)比较数据包分类以及表示。

(3)选择标识处理机制对模块进行辨识,未知包可以被回流模块和储存模块分流,有效规避误报问题,避免出现丢包的弊端。

(4)信令数据涵盖了多重关联,经过比较可以进行正确性的检查

(5)使用多种关联参数进行业务统计XDR。

(6)IP使用五元组,在多关联参数协助下完成处理,规避由于数据包无法准确辨识造成多种业务流。

(7)动态解析更新的协议码和结构,避免系统重启,造成数据包无法实现关联。

3.3  流式处理

首先借助SDTP接口方式完成XDR数据的实时接收,通过于Kafka工具的应用,在队列中录入并流数据,数据实现了实时入库,不会出现数据延时问题。其次借助于ETL模型,如Storm框架,实现粗粒度级别的清洗、转换数据同时也可以完成逻辑运算数据。在保证计算资源完全充足时,可以运算海量数据,并保证时延不超过5分钟,完成运算可以满足数据维度、时间力度以及跨接口运算的要求。最后对数据进行汇总,将计算接口在Kafka实时队列中完成准确录入。由于Kafka工具能够给运算步骤提供高兼容度的接口,使其得到广泛使用,在应用期间实现了完整对接。上层应用所花费的成本相对较少,开发效率也相对较快,对于大量数据生产起到较大帮助。

同时数据录入进Oracle数据库中,可以进行二次加工,从而完成复杂运算。由于系统的延展性强,能够自动对接前台部分系统。且逻辑运算平台框架支持HBase储存型数据库的数据录入,可以得到海量数据并实现高速高效查询。数百亿甚至万亿数据被记录后,普通数据库无法适应,只能使用HBase数据库,且数据库可以达到秒级。使用该种数据库,可以实现快速查询,且数据库延展性较好,查询结果更加准确。

3.4  拥挤警报

移动互联网中,很大一部分应用数据流建立在TCP协议上传送。TCP协议可以认定为传输层协议。任何接收端收到数据包后,会向发送端发送消息。通过分析Acknowledge-ment,发送端能够实现准确且及时的数据包确认工作,发送和接收端上数据包发生丢失事故时,发送端会重新传输数据包直到接收端确认接收的消息。高速探针可以实时检测到用户数据包,并将源端数据和关联信息完成相互匹配。在传递数据包期间若出现丢失,探针将根据用户TCP数据流,对于数据包丢失率展开准确快速计算。探针可以获得数据流任何一个数据包传输路线,确定信号流。掌握这些信息,用户TCP会话丢失率会被映射给用户,在传输路径上,丢失率是发送路径上全部数据包丢失的累计。当用户随意移动时,传输通道不断改变,丢失数据包和时间路径相互对应。

网络整体丢失率是全部路径丢失率的累积,但是并没有表明网元丢失的细节。探针使用断层扫描技术,通过借助统计推论算法,能够将传输路径上出现的丢失率计算出来。使用该算法要先假设丢失率不是随机发生的,是由各个网元累计而来,且假设传输路径拥有同样的网元,无线用户会拥有相似丢失率,路径之间存在重叠现象,形成巨大采样集,让全部样本数据得到覆盖。探针有两种方法应对拥挤,第一种方法是假设拥挤网元丢包率更高,但是网元未过载,丢失率仍然较高,该定义也成立。网元丢失率会影响用户体验。网络断层扫描算法可以确定数据包丢失,该现象为拥挤警报。第二种方法是检测对比一天负载量和一周负载量,该现象为趋势警告。

4  结  论

综上所述,本文研究了移动互联网大数据异构实时计算框架,在软件和硬件联合应用的基础上,辅助运营商使用有序统一方式采集、储存数据,让不同分析、搜索以及访问需求得到完全满足,在提升用户体验感的同时,让故障检修以及通道监控得以实现,使得互联网运营成本得到有序控制,并提高运营稳定性。

参考文献:

[1] 李洪乾.面向电力大数据的多数据流实时处理技术研究 [J].计算机产品与流通,2018(10):63.

[2] 吴海建,吕军.物联网大数据处理中实时流计算系统的实践 [J].电子技术与软件工程,2018(17):170.

[3] 陈德冲.基于事件驱动的智能大数据实时处理平台的研究设计和基本实现 [D].北京:北京邮电大学,2016.

作者简介:傅学磊(1979.10-),男,汉族,广东高州人,讲师,硕士,研究方向:计算机应用技术。

推荐访问: 网大 互联 实时 框架 异构

【基于移动互联网大数据的异构实时计算框架分析】相关推荐

工作总结最新推荐

NEW
  • XX委高度重视党校的建设和发展,出台《创建全省一流州市党校(行政学院)实施方案》及系列人才培养政策,为党校人才队伍建设提供了有力的政策支撑。州委党校在省委党校的悉心指导下、州委的正确领导下,深入贯彻落

  • 为推动“不忘初心、牢记使命”主题教育常态化,树牢“清新简约、务本责实、实干兴洛”作风导向,打造忠诚干净担当、敢于善于斗争的执纪执法铁军,经县纪委常委会会议研究,决定在全县纪检监察系统开展“转变作风工作

  • 为进一步发展壮大农村集体经济,增强村级发展活力,按照中共XXX市委抓党建促乡村振兴工作领导小组《关于印发全面抓党建促乡村振兴四个工作计划的通知》要求,工作队与村“两委”结合本村实际,共同研究谋划xx村

  • 今年来,我区围绕“产城融合美丽XX”总体目标,按照“城在林中,水在城中,山水相连,林水相依”以及“城乡一体、景城一体、园城一体”的建设思路,强力推进城市基础设施建设、棚户区改造、房地产开发和城市风貌塑

  • 同志们:新冠疫情发生至今已有近三年时间。三年来,在广大干群的共同努力下,我们坚决打好疫情防控阻击战,集团公司范围内未发生一起确诊病例,疫情防控工作取得了阶段性胜利。当前国际疫情仍在扩散蔓延,国内疫情多

  • 我是毕业于XX大学的定向选调生,当初怀着奉献家乡、服务人民的初心回到XX,在市委的关心关爱下,获得了这个与青年为友的宝贵历练机会。一年感悟如下。一要对党忠诚,做政治坚定的擎旗手。习近平总书记指出,优秀

  • 同志们:今天召开这个会议,主要任务是深入学习贯彻习近平总书记重要指示批示精神,以及李克强总理批示要求,认真落实全国安全生产电视电话会议和全省、全市安全生产电视电话会议精神,研究我县安全生产和安全隐患大

  • 2022年市委政研室机关党的建设工作的总体要求是:坚持以XXX新时代中国特色社会主义思想为指导,全面贯彻党的XX届X中X会和省、市第十二次党代会精神,自觉运用党的百年奋斗历史经验,弘扬伟大建党精神,深

  • 同志们:今天,我们在这里召开市直机关基层党建示范点工作会议,一方面是对各示范点单位进行表彰授牌,另一方面是想通过这种会议交流的方式,给大家提供一个相互学习、取长补短的平台和机会。市直工委历来把创建基层

  • 新冠疫情暴发以来,学校党委坚决贯彻习近平总书记关于疫情防控工作的指示要求和党中央的决策部署,严格执行×××部、×××厅关于疫情防控的系列要求,认真落实驻地防疫部门的工作举措,继承发扬优良传统,以最高标