首页 期刊简介 最新目录 过往期刊 在线投稿 欢迎订阅 访客留言 联系我们
新版网站改版了,欢迎提出建议。
访客留言
邮箱:
留言:
  
联系我们

合作经济与科技杂志社

地址:石家庄市建设南大街21号

邮编:050011

电话:0311-86049879
友情链接
·中国知网 ·万方数据
·北京超星 ·重庆维普
公共/财税
Lasso算法在SVR模型中的应用
第702期 作者:□文/闫静莹 时间:2023/4/1 10:37:14 浏览:359次

[提要] 支持向量回归(SVR)模型对高维数据的研究具有出色的泛化能力和很高的预测精度,但在问题之初,数据往往存在着多重共线性的问题。本文引入Lasso算法进行变量筛选后再建立SVR回归模型,以此期望获得较好的模型效果。选取陕西省一般公共预算收入及相关统计指标数据进行实证分析,使用Lasso算法进行变量优化后建立SVR回归模型对陕西省一般公共预算收入进行预测,从结果上来看,模型预测效果较好,在六个时间节点上,预测值与实际值完全一致。进而说明在高维统计建模时,使用Lasso算法进行变量筛选能够使得模型达到一个较好的效果。

关键词:Lasso算法;SVR回归模型;多重共线性;公共预算

中图分类号:F81 文献标识码:A

收录日期:2022718

引言

在高维统计建模中,为了减少因自变量较少而产生的模型偏差,通常会预先选择较为多的变量以达到减少偏差的目的。然而,并不是每一个自变量都对因变量有强解释作用,因此在研究中为了提升模型的拟合效果以及预测精度,就必须要选择对因变量具有强解释作用的自变量来进行分析。Tibshirani1996年提出了LassoThe Least Absolute Shrinkage and Selectionator operator)算法,该算法可以将不相关的自变量收缩为零,以此达到优化回归模型中的多重共线性问题,其主要是通过构造一个一阶惩罚函数,以此来对压缩回归系数的绝对值进行惩罚,从而获得一个精炼模型。

SVR 回归模型也叫支持向量回归模型,支持向量回归(SVR)的特点是使用核、稀疏解和 VC 控制边距和支持向量的数量。作为一种监督学习方法,SVR 使用对称损失函数进行训练,主要优点是计算复杂度不依赖于输入空间的维度,具有出色的泛化能力和很高的预测精度。顾艳文收集20112019年的百度指数数据,并采用Lasso回归等方法对变量进行筛选,最后建立SVR模型进行预测得到了很好的预测效果。任晶晶通过对吕梁市20062019年地方财政收入及其影响因素的相关数据进行分析,建立了关于支持向量回归SVR的地方财政收入预测模型,预测模型精度较高,取得了很好的预测效果。喻铁朔依据课程间的相关性,采用SVR模型进行成绩预测,并在预测基础上实现学业预警,模型取得了很好的预测结果,对教师教学提供了参考依据。

在研究地方财政收入的影响因素时,常常因为数据繁琐而使得国内学者去寻求一些方法来优化对影响因素的选择。朱海龙通过对岭回归和LASSO回归在安徽省财政收入影响因素问题上进行比较分析,认为相较于岭回归模型,LASSO回归模型更优。冯海琦在基于Lasso回归模型对山东省社会消费品零售额的影响因素分析时,认为最小绝对收缩和选择算子回归模型更有优势。徐子卿以贵州省19952017年的地方财政一般预算收入及其他相关经济指标数据为样本,通过Adaptive-Lasso变量选择法来分析影响贵州省地方财政收入的关键因素取得了较好的预测效果。农秋红通过Lasso变量选择法和逐步回归法的比较,发现Lasso变量选择法选取的指标在广西区域经济发展研究中更具代表性,预测精度也更高。

在以往研究中,主要集中于研究地方财政收入的影响因素,对地方一般公共预算收入的影响因素研究较少。地方一般公共预算收入包括地方本级收入、上级政府对本级政府的税收返还和转移支付、下级政府上缴收入。科学合理地分析影响地方一般公共预算收入的主要因素,能有效地避免预算收支规模的随意性和盲目性,对宏观经济调控具有非常重要的现实意义和作用。在对地方一般公共预算收入的研究中,数据的多重共线性问题始终对模型的精度产生重要的影响,为了减少模型过度拟合和多重共线性的问题,目前普遍采用岭回归和LASSO回归方法进行相关问题的研究。

结合上述文献分析,参考之前学者的研究结果,本文选取陕西省20102020年的一般公共预算收入及相关数据来进行实证分析,通过Lasso算法在建模中进行变量的筛选,研究Lasso算法在SVR回归模型中的实际应用问题。

一、Lasso算法原理

在面对高维数据时,为防止在拟合模型时出现过拟合的问题,往往需要先对高维数据进行降维处理。在1996年,Robert Tibshirani提出Lasso回归算法,是一种估计方法,这种估计方法是缩减性的,即在回归的过程中,将不重要的一些参数的回归系数缩减为0,从而实现对高维数据的降维,完成变量筛选。这样的Lasso回归算法就是在传统的最小二乘估计上对模型的系数施加一个惩罚,定义为:

■=arg■‖Y-Xβ‖■■+λ■βj1

公式(1)中,β是n维参数向量;X是矩阵;Y是因变量;λ是收缩参数。模型的惩罚力度与收缩参数λ有关,λ越小,则惩罚力度越小,于是模型中保留的变量就越多;λ越大,则惩罚力度越大,模型中保留的变量就越少。通过调节λ的值即可完成变量的筛选。

二、SVR回归模型原理

在线性回归中,目标通常是为数据拟合一条回归线,以使偏差引起的误差最小。其表达式为:

=WTx+b2

为了最小化这种偏差,首先需要通过总结数据点和回归线之间的所有平方垂直差来制定优化问题;然后使用普通最小二乘法的技术来确定向量W和偏置项b,从而使误差函数最小化。

与普通最小二乘不同,SVR模型设置了阈值误差容限ε围绕回归线,使得所有数据点在ε不会因为他们的错误而受到惩罚。支持向量机通过将二元分类问题表述为凸优化问题来解决。

优化问题需要找到分离超平面的最大边距,同时正确分类尽可能多的训练点。SVM用支持向量表示这个最优超平面。SVM 的稀疏解决方案和良好的泛化能力有助于适应回归问题。

SVR将输入数据的原始空间映射到更高维的特征空间,通常通过非线性高斯核函数实现。在特征空间中,问题变成了拟合数据的最优线性平面fx)=μ+ωT?准(x)的构造。其中,μ是偏差基数,ω是权重。于是,通过最小化向量范数ω的平方来寻求最平滑的函数fx),构建SVR的优化目标为:

min■‖W23

其中,位于边界上的点满足条件:

yi-(ωxi+b)|≤ε (4

每个训练数据的预测值的误差最多等于ε,然后使用拉格朗日乘子将约束优化问题重新表述为对偶问题形式,对于每个约束,使用二次规划来确定,之后计算最佳权重的偏差,得到SVR映入核函数后的表达式:

fx)=μ+■(αi-αi*?准(xxi) (5

三、实证分析

(一)数据说明及研究框架。为了探究Lasso算法在SVR回归模型中的应用,考虑到统计指标因为时间跨度较长和统计口径不一致的影响,本文选取《陕西统计年鉴》中20102020年以来的对一般公共预算收入影响较大的17个统计指标如表1所示。(表1

利用Lasso算法进行数据多重共线性问题的处理和变量筛选,将得到的强解释性变量用于SVR回归模型的建立,最终通过SVR回归模型对陕西省2021年、2022年的一般公共预算收入进行预测。

(二)数据预处理。在已获取的研究数据中,首先进行异常值处理。本文针对可能出现的异常值情况,通过绘制箱线图来进行分析,将出现的异常值用前后两次数据的均值进行替换。

(三)相关性分析。对所选择的17个统计指标进行相关性分析,使用Lasso特征选择模型进行特征选择绘制相关性热力图,直观显示相关性如图1所示。(图1

通过影响陕西省一般公共预算收入的统计指标热力图,可以发现上述17个统计指标均与一般公共预算收入有强相关性,并且这些属性间存在多重共线性。于是下一步通过Lasso算法来解决多重共线性问题,并得到优化后的统计指标。

(四)基于Lasso算法的变量筛选。在研究陕西省一般公共预算收入与各统计指标的关系时,Lasso回归模型中的λ值是未知的,为了使得因变量y是由潜在的协变量子集的线性组合来确定的,本文在此通过Lasso回归中的LARS算法来估计所需包含的变量及系数。

LARS算法类似于逐步回归,先确定与因变量y相关度最高的自变量x,用类似前向梯度算法中的残差估计得到新的变量y1,并且进一步得到x1,使得x1y1的相关度与xy的相关度相同,残差y1分布在x1x的角平分线方向,继续沿着残差角平分线方向直到出现x2y的相关度最大时,将其引入到y的逼近特征集合,并把y的逼近特征集合的共同角分线作为新的逼近方向。不断循环直至所有的变量均已取完则算法终止。基于本文的实验数据得到该算法的可视化结果如图2所示。(图2

LARS算法可视化结果中的每一条折线都代表着一个统计指标,接下来通过Lasso回归算法进行变量筛选,得到Lasso回归系数如表2所示。(表2

Lasso算法结果可以看到,17个统计指标中,生产总值(亿元)、能源消费总量(万吨标准煤)、一般公共预算支出(亿元)、城镇居民人均可支配收入(元)、农林牧渔业总产值(万元)、规模以上工业企业利润总额(万元)、建筑业总产值(万元)、社会消费品零售总额(亿元)、进出口总值(万元)、居民平均工资(元)、全省居民人均生活消费支出(元)对陕西省一般公共预算收入具有强解释关系。

基于以上Lasso回归算法的变量筛选结果,本文选取生产总值(亿元)、能源消费总量(万吨标准煤)、一般公共预算支出(亿元)、城镇居民人均可支配收入(元)、农林牧渔业总产值(万元)、规模以上工业企业利润总额(万元)、建筑业总产值(万元)、社会消费品零售总额(亿元)、进出口总值(万元)、居民平均工资(元)、全省居民人均生活消费支出(元)这11个变量建立关于陕西省一般公共预算收入的SVR回归模型,并对2021年和2022年的陕西省一般公共预算收入进行预测。

(五)SVR回归模型的构建及预测。基于Lasso算法筛选出的统计指标,构建SVR回归模型,并对陕西省2021年、2022年的一般公共预算收入进行预测,得到陕西省一般公共预算收入的预测结果如图3所示。(图3

通过SVR回归模型预测结果可以看到,预测值与实际值较为接近,说明模型预测效果较好,预测陕西省2021年一般公共预算收入为2593亿元,预测陕西省2022年的一般公共预算收入为2754亿元。

四、结论

本文选取20102020年陕西省一般公共预算收入相关统计指标,研究了Lasso算法在SVR回归模型预测中的应用。可以看到的是,Lasso算法很好地解决了统计指标之间多重共线性的问题,在通过Lasso算法进行变量筛选后,使得后续建立的SVR模型的预测精度与实际值之间的差异非常小,在六个时间节点上,预测值与实际值完全一致。由此可以看到,在高维统计建模时,使用Lasso算法来进行变量筛选能够使得模型达到一个较好的效果。

同时,在实证分析中,也可以看到模型对实际问题的解决提供了很好的方法选择。在对陕西省一般公共预算收入的影响因素分析中,发现一般公共预算支出对一般公共预算收入具有很显著的正向影响,其次是能源消费总量、城镇居民人均可支配收入、规模以上工业企业利润总额、建筑业总产值、社会消费品零售总额、居民平均工资、全省居民人均生活消费支出均对陕西省一般公共预算收入有着正向影响。而生产总值、农林牧渔业总产值、进出口总值则对陕西省一般公共预算收入有着负向影响。

五、建议

基于以上实证分析结果,本文给出关于提升陕西省一般公共预算收入的建议:(一)政府应落实积极的财政政策,全力支持经济平稳健康发展,继续深化财税体制改革,不断提升财政预算管理水平。制订考核方案,纳入考核体系,针对专项资金,要加强事前的绩效评估,将评估结果与政策安排挂钩,明确各级应承担的责任。持续加大财政投入,将各项政策落实到实处,积极帮助企业解困发展,引导社会资本支持实体经济发展,重点支持中小微企业、个体工商户以及实体经济制造业等。(二)通过持续深化供给侧结构性改革促进企业的良性发展,鼓励企业间的良性竞争,在竞争中提升产品质量以激发消费市场的潜在活力,拉动社会消费品零售总额的提升。加大一般公共预算支出的投入,让政府资金下沉到基层,支持和保障居民的就业、养老、教育以及医疗等问题,进而提升居民的平均工资,提升人民生活消费支出。(三)加大省级财政投入力度,聚力创新驱动平台的建设,促进经济高质量发展。同时,保障农业农村优先发展,加快推进农业农村现代化,提升粮食和重要农产品供给保障能力。优化农产品贸易布局,实施农产品进口多元化战略,支持企业融入全球农产品供应链。强化现代农业科技和物质装备支撑,提高农机装备自主研制能力,支持高端智能、丘陵山区农机装备研发制造。加大对农林牧渔第三产业的扶持力度,创新性发展第三产业以顺应市场的需求,从供给侧解决农林牧渔业对一般公共预算收入的影响。

(作者单位:西安财经大学)

 

主要参考文献:

1]顾艳文,刘媛华.基于Lasso回归和SVR模型的消费者信心指数的预测[J.智能计算机与应用,2021.1109.

2]任晶晶,高上彬.基于SVR的吕梁市地方财政收入预测模型[J.信息技术与信息化,202201.

3]喻铁朔,甘琤,李霞,杨彩.SVR回归在成绩预测预警中的应用研究[J.中国教育信息化,202011.

4]朱海龙,李萍萍.基于岭回归和LASSO回归的安徽省财政收入影响因素分析[J.江西理工大学学报,2022.4301.

5]冯海琦,赵玉梅,王琳琳.山东省社会消费品零售额的影响因素分析——基于Lasso回归模型[J.鲁东大学学报(自然科学版),2021.3704.

6]徐子卿.贵州省财政收入影响因素分析及预测[J.农村经济与科技,2019.3006.

7]农秋红,韦程东,罗文婷.Lasso变量选择法在广西区域经济发展影响因素选取中的应用[J.中国商论,202110.

 
版权所有:合作经济与科技杂志社 备案号:冀ICP备12020543号
您是本站第 32459441 位访客