打开文本图片集
摘 要: 为了改善大规模网络流量预测结果,建立了大数据环境下的网络流量非线性预测模型。首先采集大规模的网络流量历史数据,然后根据云计算技术的Map/Reduce处理模式对其进行细分,得到多个数据量相对较小的子训练样本集合,并引入数据挖掘技术中的状态回声网络对子训练样本集合的网络流量进行预测,最后对子训练样本集合的网络流量预测结果进行融合,并与当前经典网络流量预测模型进行了对照实验,模型的网络流量预测精度超过90%,网络流量训练时间得到了大幅度缩短,网络流量整体性能要明显优于当前经典网络流量预测模型,对比实验验证了本模型用于当前网络流量建模与预测的优越性。
关键词:
單处理模式; 云计算平台; 回声状态网络; 训练时间; 网络流量预测精度
中图分类号: TP311
文献标志码: A
Nonlinear Prediction Modeling of Network Traffic in Big Data Environment
GUO Hairong
(Modern Education Technology Center, Chengdu Medical College, Chengdu 610500)
Abstract:
In order to improve the prediction result of large scale network traffic, a non-linear prediction model of network traffic based on large scale data environment is designed. Firstly, we collect historical data of network traffic, then subdivide it according to Map/Reduce processing mode of cloud computing technology, and get a set of sub-training samples with relatively small amount of data. Then we introduce the state echo network of data mining technology to predict the network traffic of sub-training samples. Finally, we advance the prediction results of network traffic of sub-training samples. We compare it with the current classical network traffic prediction model. The network traffic prediction accuracy of this model exceeds 90%, the network traffic training time has been greatly shortened, the overall performance of network traffic is significantly better than the current classical network traffic prediction. The comparative experiments verify the superiority of this model in the current network traffic modeling and prediction.
Key words:
Single processing mode; Cloud computing platform; Echo state network; Training time; Network traffic prediction accuracy
0 引言
随着大数据时代的到来,各个领域的数据向海量、大规模方向发展,尤其是网络流量数据,每天有大量流量数据产生,它们不断的在网络上进行传输,使得网络流量管理系统的负载日益严重,到了周末或者节假日,网络的速度极慢,而且经常出现网络拥塞,如何改善网络流量的传输速度和网络流量的管理效率引起了人们的高度关注[1] 。
网络流量的建模与预测是一种网络管理的重要技术,其对将来一段时间内的网络流量变化趋势进行预测,得到的预测结果可以提供给网络管理者,让他们提前准备一定的网络流量管理方案进行应对,因此当前存在许多网络流量预测模型[2] 。当前网络流量预测模型可以划分为两种:周期性的网络流量预测模型和随机性的网络流量预测模型[3,4] ,其中周期性预测模型认为网络流量是一种周期性的变化规律,在一段时间内有一定的相似性,如聚类分析的网络流量预测模型,通过聚类分析算法从历史样本中选择与当前预测点相似的样本组成训练样本,然后采用回归算法实现网络流量预测,而实际上网络流量不仅只有周期性变化规律,由于受到上网用户的行为影响,其具有十分强烈的随机性,因此周期性预测模型只能描述网络流量的局部变化特点,无法对网络流量变化特点进行全面描述,网络流量的稳定性差[5] ;随机性的网络流量预测模型基于非线性理论进行建模与分析,通过引入一些机器学习算法如极限学习机、神经网络进行训练和学习[6-8] ,其网络流量预测的性能要优于周期性预测模型,成为网络流量预测研究中的主要方向。当前周期性预测模型或者随机的预测模型均采用单机处理模式,而现代网络流量数据朝大规模方向发展,使得单机处理模式缺陷十分明显,不能适应现代网络流量预测的发展要求[9] 。
根据网络流量数据变化特点,为了解决单机处理技术的局限性,以提高网络流量预测效果,设计了基于大数据环境下的网络流量非线性预测模型,并与其它模型进行了对照实验,本文模型的网络流量预测精度高,网络流量训练时间短,相对于对比模型,本文的网络流量预测结果具有显著的优越性。
1 云计算技术和回声状态网络
1.1 云计算技术描述
云计算技术是在互联网的基础上发展起来的、专门针对海量数据的一种处理技术,集成了分布式处理、并行计算等优点,其采用Map/Reduce计算模型,基于分层次计算,处理数据的速度相当快,其工作基本思想为:將一个大数据集拆分为多个子数据,每一个子数据集对应一个Map任务,然后采用不同节点对Map任务进行执行,得到中间处理结果,最后通过Reduce对中间处理结果进行收集和融合,得到最终处理结果,其工作原理如图1所示。
1.2 回声状态网络
受流体状态机模型的启发,有学者提出了回声状态网络,解决了传统神经网络的瓶颈问题,其包括前端输入、储备池和输出层,它们对应的向量分别如式(1)、(2)、(3)。
u(n)=(u1(n),u2(n),…,uK(n))T(1)
x(n)=(x1(n),x2(n),…,xN(n))T(2)
y(n)=(y1(n),y2(n),…,yL(n))T(3)
在第n个时刻,回声状态网络的状态更新方程和输出计算公式分别为式(4)、(5)。
x(n+1)=f1(Win u(n+1)+Wx(n)) (4)
y(n+1)=f2(Wout x(n+1))(5)
式中,Win 、W、Wout 分别表示前端输入、储备池和输出层的连接权值,f1和f2分别表示储备池和输出层的激活函数。
回声状态网络的工作步骤:
(1)根据具体预测问题,初始化储备池大小、谱大小、输入缩放系数、稀疏度等参数。
(2)建立输入样本和期望输出之间的映射关系。
(3)由于在回声状态网络学习过程中,Win 、W的值固定不变,对Wout 进行训练,根据式(5)和训练样本u(n)对期望信号y(n)进行逼近,具体为式(6)。
Wout x(n)≈yt(n+1)(6)
根据式(3)可知,状态向量x(n)由u(n)决定,即:u(n)x(n),输入向量和期望输出序列之间的映射关系为[10] 式(7)。
u(n)→yt(n) (7)
(4)设状态矩阵向量为X,其对应的期望的输出向量为Y,则有式(8)。
Y=Wout X (8)
其中,Wout 训练目标可以表示为式(9)。
minY-Yt2 (9)
采用违逆法对Wout 进行训练,得到Wout 式(10)。
Wout =Yt×X+ (10)
式中,X+表示X的违逆矩阵。
(5)根据训练得到的Wout 对实际输出信号进行预测,预测结果为式(11)。
(n)=Wout x(n) (11)
2 大数据环境下的网络流量非线性预测方法的具体设计
2.1 大数据环境下的网络流量非线性预测原理
大数据环境下的网络流量非线性预测原理为:首先采集大规模的网络流量历史数据,然后根据云计算技术的Map/Reduce处理模式对其进行细分,得到多个数据量相对较小的子训练样本集合,并引入数据挖掘技术中的状态回声网络对子训练样本集合的网络流量进行预测,最后对子训练样本集合的网络流量预测结果进行融合,输出网络流量的最终预测结果,具体工作原理如图2所示。
2.2 大数据环境下的网络流量非线性预测步骤
(1)对于一个网络管理系统中的服务器历史数据进行收集。
(2)Map端将大规模网络流量数据集进行细分,得到许多子数据集。
(3)每一个网络流量子数据集通过一个Map任务处理,即通过回声状态网络对网络流量进行训练。
(4)得到每一个网络流量子数据集的回声状态网络预测结果,并将结果输出到Reduce端。
(5)Reduce端对Map传来的网络流量子数据集预测结果进行合并,得到网络流量的最终预测结果。
3 大数据环境下的网络流量非线性预测模型性能与分析
3.1 测试环境及实验数据
为了分析大数据环境下的网络流量非线性预测的有效性,云计算平台共包含5个节点,1个节点作为服务器,另外4个作为普通节点,它们具体配置方式如表1所示。
采用不同规模的网络流量数据作为实验对象,共5个网络流量数据集合,它们的大小如表2所示。
3.2 结果与分析
为了分析回声状态网络用于网络流量建模的优越性,选择BP神经网络的网络流量预测模型进行对比测试,采用数据处理技术均为云处理技术,统计5个网络流量数据集合的预测精度,结果如图3所示。
对图3的5个网络流量数据集合预测精度进行对比和分析,可以发现,回声状态网络的网络流量预测精度明显优于BP神经网络的网络流量预测精度,降低了网络流量预测误差,这是因为回声状态网络可以对网络流量随机性、复杂性的变化特点进行高精度建模,建立了更优的网络流量预测模型,对比结果验证了本文将回声状态网络引入到网络流量预测中的思想是正确的,可以得到理想的网络流量预测结果。
为了测试云计算处理技术的优越性,选择单机处理技术进行对比测试,以单机处理技术的训练时间作为标准,建模方法均采用状态回声网络,在不同数据规模条件下,本文模型的网络流量训练时间减少倍数如图4所示。
从图4的实验结果可以看出,当网络流量数据很小时,云计算处理技术和单机处理技术需要的时间相差不大,单机处理技术的训练相对更少,这是因为云计算處理技术要经过
Map和Reduce两 个阶段,但是随着网络流量规模的不断增大,云计算处理技术的优势慢慢得以体现,网络流量预测建模的训练时间不断在减少,而且网络流量数据越大,网络流量建模训练时间减少的幅度就越大,优势越明显,对比测试结果表明,本文模型加快了网络流量训练速度,降低计算时间复杂度,提高了网络流量预测建模的效率,可以满足网络流量管理在线要求。
4 总结
网络用户的急增,业务种类的多样性增加,每一天网络上的流量数据呈指数级增长,网络流量管理面临巨大的挑战,为了提高网络流量的准确性,结合网络流量非线性、复杂、海量的特点,设计了一种大数据环境下的网络流量非线性预测模型,首先结合网络流量的大规模特性,引入云计算处理模式对训练样本进行分解操作,减少网络流量训练的时间和空间复杂度,然后引入数据挖掘技术中的回声状态网络对网络流量的非线性变化特点进行拟合,实现网络流量高精度预测,对比结果表明,本文模型的网络流量建模效率高,网络流量的预测误差明显低于当前经典的网络流量预测结果,本文模型可以应用于大规模网络流量管理系统中,具有一定的实际应用价值。
参考文献
[1] 陈颖,魏臻,程磊. 基于AVMD-DE和IBSA-KELM的混沌网络流量组合预测[J].计算机应用与软件,2018,35(6):117-121.
[2] 丁春莉,李林森. 和声搜索算法优化支持向量机的网络流量预测[J].微型电脑应用, 2017,33(1):67-70.
[3] 龙震岳,艾解清,邹洪,等 基于改进灰狼优化算法的网络流量预测模型[J]. 计算机应用研究, 2018,35(6):1845-1848.
[4] 熊凡. 遗传算法优化支持向量机的网络流量混沌预测[J]. 现代电子技术, 2018, 41(18): 166-169.
[5] 袁开银,魏彬. 相空间重构和极限学习机的网络流量预测模型[J].控制工程, 2018, 25(11): 2087-2091.
[6] 张涛,张颖江. 基于矢量空间重构的网络流量预测算法[J].计算机科学, 2016, 43(7): 11-114, 35.
[7] 王涛,程良伦. 基于快速SVM的大规模网络流量分类方法[J]. 计算机应用研究, 2012, 29(6): 2301-2305.
[8] 钱亚冠,王滨,关晓惠. 大规模网络模拟的背景流量建模[J].电信科学,2011,27(9):66-72.
[9] 王柯. 基于云计算和极限学习机的网络流量预测研究[J].山东农业大学学报(自然科学版), 2018,49(4):632-635.
[10] 李莹琦,黄越,孙晓川. 基于深度置信回声状态网络的网络流量预测模型[J]. 南京邮电大学学报(自然科学版),2018,38(5):85-90.