打开文本图片集
摘要:为对港口集装箱吞吐量进行科学预测,采用带外生变量的非线性自回归(NARX)模型对上海港的集装箱吞吐量进行预测,通过主成分分析法对港口吞吐量影响因子进行相关性分析,将筛选出的GDP作为外部输入因子引入NARX模型,实证分析发现,引入GDP的NARX神经网络模型对具有非线性特征的集装箱吞吐量数据有良好的映射逼近性,训练后的网络误差小且拟合度高,具有良好的泛化能力,预测性能较好.
关键词:NARX神经网络;集装箱吞吐量;主成分分析;动态预测
中图分类号:U691.71;TP183
文献标志码:A
0 引言
集装箱运输的发展已成为政府、企业和学术界甚为关注的一个问题.在上海,贸易和物流业占地区生产总值的比例很高,而集装箱运输是国际贸易和物流业的主要运输方式,上海港集装箱吞吐量连续5年位居世界第一.但是,近年来,随着国际经贸的发展,上海港与周边港口之间的竞争日趋激烈,上海港集装箱运输面临很多问题.本文采用带外生变量的非线性自回归(NARX)模型,建立上海港集装箱吞吐量预测模型,并进行实证分析,为上海港未来发展规划提供决策参考.
关于港口集装箱吞吐量的研究始于20世纪80年代,目前预测方法主要有时间序列法、回归分析法和因果关系法.如:施泽军等和崔巍等运用灰色模型和指数平滑法对宁波港集装箱吞吐量进行预测;徐杏等和林强等以吞吐量作为单变量构建神经网络,在深度挖掘历年数据的内部规律后对深圳港集装箱吞吐量进行预测;朱小檬等和王文采用组合分析法建立自变量与因变量的关系模型对国内港口集装箱中长期吞吐量进行预测.集装箱吞吐量变化具有复杂性和动态性,上述方法存在一定的局限性,预测精度不高,都不能完全描述吞吐量非线性时间序列的特征.结合时间序列法和因果关系法,本文采用主成分分析法筛选出集装箱吞吐量的重要影响因子GDP,将其作为外部输入引入NARX动态神经网络模型,对2015-2020年上海港集装箱吞吐量进行预测,为港口未来的发展及定位提供参考.
1 模型选择及分析
神经网络模型是反映大脑系统及功能的抽象数学模型,具有能够通过训练逼近任意非线性映射的特点.相对于无输出反馈的静态神经网络模型,NARX神经网络模型通过引入延时模块及输出反馈建立模型的动态递归网络,它将输出向量延时反馈引入网络训练中,形成新的输入向量,图1给出NARX神经网络模型的结构,u(t)表示输入向量,y(t)表示训练时的目标向量.在训练、验证及测试过程中,网络模型的输入不仅包括原始输入数据,还包含经过训练后的输出数据,网络的泛化能力得到提高.
NARX神经网络模型的数学模型可表示为
y(k)=f(y(k-1),y(k-2),…,y(k-ny),
u(k-l),u(k-2),…,u(k-nu),w) (1)式中:u(·)为输入向量u(t)在某时间点的数值;y(·.)为目标向量y(t)在某时间点的数值;nu(nu≥1)为非线性系统的输入阶数,ny(ny≥1)为输出阶数,且nu≥ny;w为网络的权重矩阵;f是训练过程中形成的非线性函数.
港口集装箱吞吐量系统具有高噪声、非平稳和非线性时间序列特征.针对吞吐量数据的特征,在选择预测模型时,应考虑过去输入与输出对当前输出的影响,因此本文选择建立NARX神经网络模型对上海港集装箱吞吐量进行预测.
2 外部输入因子的选择
外部输入因子的选择是NARX神经网络模型模拟过程中重要的一部分,其选择恰当与否直接关系到模型预测的适用性和精确度,这里借鉴国内外学者的实证研究成果,并结合上海市的实际情况,认为区域经济发展水平和交通行业政策是影响上海港集装箱吞吐量的决定因素.选取GDP(X1)、工业生产总值(X2)、社会消费品零售总额(X3)、外贸进出口额(X4)、铁路货运量(X5)、公路货运量(X6)、总货运量(X7)、第一产业产值(X8)、第二产业产值(X9)、第三产业产值(X10)等10项指标作为港口集装箱吞吐量(X0)的影响因子.表1给出1995-2014年上海港集装箱吞吐量和各项指标的统计值.
为消除影响因子的量纲差异,运用MATLAB的zscore函数对原始数据进行标准化处理.对各项指标进行相关性检验,结果见表2.各影响因子之间的相关性系数绝对值均接近1,说明各影因子之间存在高度的相关性,为消除影响因子之间的相关性,运用软件对标准化后的数据进行主成分分析,一般认为只有特征值大于1的指标才具有有效性;方差贡献率反映因子相对影响的大小,累计方差贡献率大于85%才能基本反映原始数据的信息.在表3的指标主成分分析结果中,只有GDP的特征值大于1,且累计方差贡献率达到93.28%,基本包含所有指标的信息,因此本文选取该变量作为预测模型的外部输入因子.
3 模型构建及检验
NARX神经网络模型是将y(t-l),y(t-2),…,y(t-ny),u(t),u(t-l),u(t-2),…,u(t-nu)作为输入,y(t)作为输出的一种基于BP算法的分类行为,这里选取1995-2014年上海市GDP数据作为x(t)形成网络的输入,港口集装箱吞吐量数据作为y(t)形成网络的输出,建立如图2a所示的NARX神经网络模型,
为达到期望的预测效果,需要对NARX模型的网络结构进行合理的筛选.式(1)中函数厂能否被网络准确训练、学习主要取决于隐含层神经元的个数,网络的储存能力由时延阶数决定.若神经元个数和时延阶数比较小,则模型不能精确反映输入输出关系;反之,则网络会处于过度学习状态,训练过程耗时较长,且网络泛化能力下降,因此,神经元个数和时延阶数的具体数值需反复测试后才能确定.
本文利用MATLAB神经网络的时间序列工具构建模型,将GDP作为输入数据,吞吐量作为输出数据,先随机选取使用数据的70%进行训练,再随机选取剩余数据的一半验证网络模型的归一化程度,最后用剩余的数据对生成的网络模型进行测试,若输入层的数据经过隐含层多个简单神经元后其输出值接近给出的期望值,则说明NARX神经网络模型的适用性较好;如果误差较大,则需要修改隐含层神经元的权,直到输出值与期望值的误差在可接受范围内,通过误差对比,最终选定网络模型结构:隐含层神经元个数为15,时延阶数为4.图2b为实际NARX神经网络模型,
经过反复训练的NARX神经网络模型是否具有良好的泛化能力和预测性能,主要取决于网络的误差自相关水平(图3)和输入一误差相关水平(图4).一般情况下,若除零时延以外的相关函数值落在95%的置信区间,则认为模型的网络特性较好.由图3和4可知,训练的神经网络模型具有良好的泛化能力和预测性能,
由于时延阶数为4,所以用1995-1998年数据预测1999年吞吐量,用1996-1999年数据预测2000年吞吐量,依此类推.因此,网络训练结果的初始年份为1999年,见图5.可以看出,训练样本的输入值与输出值误差极小.2001年、2004年和2008年的验证输入、输出误差和测试输入、输出误差很小,说明网络训练的拟合度较高.表4是预测误差百分比,刚开始网络训练时还存在较大的误差,且有一定的波动性,2006年预测误差更是达到16.08%.但随后网络逐渐收敛,预测误差接近0,预测精度较高.
4 港口集装箱吞吐量预测
模型的构建与分析验证了该NARX神经网络模型具有良好的泛化能力和较高的预测精度.因此,本文用NARX神经网络模型对上海港2015-2020年集装箱吞吐量进行预测,结果见表5.
预测结果表明,未来6年内上海港集装箱吞吐量将继续保持稳步增长的状态,但其增速将明显放缓,约为2%~3%.上海港作为一个重要的港口枢纽,随着全球经济的复苏和“一带一路”战略的实施,有着巨大的发展潜力,但由于短期内上海港岸线资源相对稳定,集装箱吞吐量提升潜力有限,在GDP合理增长的情况下,结合模型分析,认为到2020年上海港集装箱吞吐量将达到4097万TEU是合理的.
5 结论
论文通过NARX模型预测未来上海港集装箱吞吐量,可以得出以下结论,
第一,引入外部输入因子GDP的NARX神经网络模型适用于港口集装箱吞吐量预测,从模型拟合情况、预测误差检验和上海港实际情况看,预测结果较为理想,但由于NARX神经网络训练较为复杂,且网络的学习和记忆具有不稳定性,训练过程中若学习样本设定范围改变,则训练好的网络需重新训练.针对以上不足,模型在今后使用过程中仍需进一步完善.
第二,上海港集装箱吞吐量在稳步增长的同时,其增速将明显放缓.因此,面对中国经济的新常态和国际贸易形势的不确定性,上海港作为一个国际航运枢纽,在港口硬件实力得到飞跃性发展的基础上,更需注重提升自身软实力,借助“一带一路”和“海运强国”的战略契机,上海港应积极实现港口专业化与集约化经营的转型升级,深化完善“两型”港口建设,提升港口核心竞争力.