[摘 要] 本文应用支撑向量机模型按照不同资源位指标体系对经济区域进行更细致的分类,解决了样本不足的问题。通过支撑向量机模型的建立,有可能在样本比较少的情况下对经济区域按照资源位进行更为合理的分类,同时与按照某一类资源位指标体系的分类的结果进行对比,深入地揭示该区域在哪些指标上具有优势或是发展潜力。
[关键词] 资源位 系统经济学 经济模型 支撑向量机
传统统计学研究的是样本数目趋于无穷大时的渐近理论,但在实际问题中,样本数往往是有限的,统计学习理论为解决有限样本问题提供了一个统一的框架,其中支持向量机(Support Vector Machine 以下简称SVM)是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。目前,SVM算法在分类方面的应用多在模式识别、回归估计、概率密度函数估计等方面,本文首次将SVM算法引入经济领域,对经济区域进行分类,获得了较为满意的效果。
一、支持向量机分类
1.分类算法原理。支持向量机从本质上来讲也是一种统计方法,本文的研究中着重讨论和研究了非线性支持向量机的求解,而非线性支持向量机的求解是以线性支持向量机的求解为基础的。SVM的核心思想在于使分类间隔最大实际上就是对概化能力的控制,就是说不仅能将两类分开,而且使分类间隔最大。
线性可分的支持向量机问题是一个二次规划问题,可以转化为如下的最优化问题:
优化变量为和,而是学习样本,其中是特征矢量、是归属的类别值。
借助Lagrange函数将问题转化为对偶函数形式,通过分析约束条件,最后可得到分类函数
经济系统最重要的特点就是非线性,支持向量机能够应用在经济领域的原因就在于能够处理非线性问题,可以通过非线性变换转化为某个高维空间中的线性问题,在变换空间求最优分类面。应用支撑向量机模型按照不同资源位指标体系对经济区域进行更细致的分类,解决了样本不足的问题。通过支撑向量机模型的建立,有可能在样本比较少的情况下对经济区域按照资源位进行更为合理的分类,同时与按照某一类资源位指标体系的分类的结果进行对比,深入地揭示该区域在哪些指标上具有优势或是发展潜力。
2.指标选择。根据2005年的国家统计年鉴,需要注意的是分类指标的选择非常关键,这是分类是否成功的关键,本文是通过主成分分析法 进行指标的选择,通过主成分分析法,本文选择的指标包括地区生产总值、资本形成总额、城镇人口比重、第三产业人口占就业人口比重、职工平均工资、人均国民生产总值、城镇居民可支配收入、平均每人全年消费性支出等几项指标,从而较好的对区域经济进行了分类,其中第一因子主要由技术与投资指标决定,第二因子由可持续发展类的包括绿化等指标来决定。
二、实验
本文选取了28个省份的地区生产总值、资本形成总额、城镇人口比重、第三产业人口占就业人口比重、职工平均工资、人均国民生产总值、城镇居民可支配收入、平均每人全年消费性支出等八个经济指标。首先随机选取的八个省份的数据进行训练。
图上的点分为两类:红色为经济发达,黑色为不发达省份。红点的省份:北京、天津、上海、江苏、浙江、广东、辽宁、山东。属于经济发达的省份黑色就是其余的省份。同时按照资本,产业布局等多种指标对不同指标进行分类,获得如下效果:通过上面的分析可以看到,使用SVM算法对经济区域进行分类得到的经济发达地区包括北京、天津、上海、江苏、浙江、广东、辽宁、山东,与实际情况非常接近。本文将支持向量机算法在使用有限样本对数据进行分类的能力很好的应用在经济领域里,经济系统最重要的特点就是非线性,支持向量机能够应用在经济领域的原因就在于能够处理非线性问题,有可能在样本比较少的情况下对经济区域按照资源位进行更为合理的分类。
参考文献:
[1]概化理论研究及应用前景.心理科学,2003(3)
[2]昝廷全:系统经济学探索[M].科学出版社,2004年3月