首页 期刊简介 最新目录 过往期刊 在线投稿 欢迎订阅 访客留言 联系我们
新版网站改版了,欢迎提出建议。
访客留言
邮箱:
留言:
  
联系我们

合作经济与科技杂志社

地址:石家庄市建设南大街21号

邮编:050011

电话:0311-86049879
友情链接
·中国知网 ·万方数据
·北京超星 ·重庆维普
市场/贸易
山东省商品房价格预测研究
第712期 作者:□文/王兆娟 时间:2023/9/1 15:32:59 浏览:365次

[提要] 本文基于山东省近23年商品房价格及其影响因素数据,建立多元线性回归模型、BP神经网络模型和时间序列模型,以期找到最合适的房价预测模型。首先对选取的影响商品房价格的12个自变量进行变量选择,然后建立上述三个模型,对比分析三种不同模型的拟合效果预测山东省商品房均价,最后得出结论:多元线性回归模型拟合效果最好,比较适合用于房价预测;BP神经网络模型预测值最准确,但从模型的拟合效果看不太适合用于长期预测;时间序列模型拟合效果较好,预测能力相对另外两个模型是比较差的,预测的精度相对较低。

关键词:多元线性回归模型;BP神经网络模型;时间序列模型;预测房价;变量选择

中图分类号:F293.3 文献标识码:A

收录日期:2022121

引言

近年来,我国商品房价格从整体来看是呈上涨趋势的,近期有小幅度的下降。但是人们的买房需求似乎仍然日益高涨,并且房产市场出现了倒买倒卖的现象,各种各样的问题导致房地产行业发展走向越来越偏离正轨。商品房价格问题一直以来对国家经济、社会稳定、百姓生活质量有着重要影响。山东省沿海城市较多,地理位置优越,是我国人口上亿的经济大省,房价水平在我国算是比较高的,和其他省份一样,在经历了前些年的楼市大潮之后,山东省各地的房价走势也开始出现了一定程度的分化。因此,准确了解房价发展趋势,找到较为合适的房价预测方法对于有购房需求的人们来说就显得尤为重要。

关于房价预测问题,很多学者进行了相应的研究。杨楠和邢力聪为了预测房价指数建立了灰色马尔可夫模型,结果表明,灰色马尔可夫模型的拟合精度较高,非常适用于房价指数的预测。高玉伟和范明月根据季度数据做了时间序列分析,根据年度数据做了面板数据分析,并预测了天津市的房价走向。邱启荣和于婷采用了基于主成分分析的BP神经网络模型对房价进行预测,结果发现所建立模型的预测误差很小,可以作为房价预测的一种有效方法。谈萍和史占中建立灰色马尔可夫预测模型对未来房价的灰色预测结果做出马尔可夫评价,结果表明,模型是有效的。高玉明和张仁津则提出了遗传算法优化的BP神经网络模型用于房价预测。陈世鹏和金升平通过对比随机森林模型与ARMA模型及多元线性回归模型预测房价,结果表明,随机森林取得了较好的预测效果。王筱欣和高鹏验证了BP神经网络模型对重庆市房价预测具有较强的有效性。

本文搜集整理19992021年山东省商品房均价和一些比较重要的影响因素的相关数据,对数据进行降维处理,选取对房价影响相对重要的变量,之后建立三种不同类型的模型来预测2021年山东省商品房价格,目的是为了选取合适的房价预测模型,以便于对未来的房价走势进行更准确的预测,为今后购房提供一些有效的价格参考。

一、数据分析及处理

(一)数据来源与说明。本文数据选自山东省统计年鉴、国家统计年鉴、中经网产业数据库1999~2021年的数据。下面是所选取的各变量的符号和对应的含义:y是山东省商品房均价(元/平方米)代表商品房价格,x1是房地产开发投资额(亿元),x2是山东城镇居民人均可支配收入(元),x3是山东GDP(亿元),x4是山东GDP增速(%),x5是商品房销售面积(万平方米),x6是人口自然增长率(%),x7是房地产开发企业房屋竣工面积(万平方米),x8是房地产企业竣工房屋造价(元/平方米),x9是国内生产总值(亿元),x10是房产税(亿元),x11是山东省消费价格总指数(%),x12是山东年末人口数(万人)。

(二)变量选择。鉴于本文选取的自变量数量较多,所以首先考虑对变量进行选择,使得所建立的模型更加简洁高效。变量选择可以帮助我们从更多的自变量中选取最优变量建立更简约有效的预测模型,从而节省自变量的测量成本,提高模型精度。绘制各变量的相关关系散点图,如图1所示。(图1

根据相关关系散点图可以看出,我们所选取的12个自变量具有一些相似的变化趋势,变量之间相关程度很高,因此需要去掉存在高度相关关系的自变量,防止对后续所建立的预测模型的精度产生影响。本文采用逐步回归的方法利用R语言统计软件从较多的变量中删除对因变量没有显著影响的自变量,选出对因变量影响较大的自变量来建立模型。逐步回归的原理是基于偏回归平方和显著的条件将自变量挨个引入,每引入一个新的变量就对旧的自变量进行检验,去除不显著的变量,一直重复上述步骤直到最终选出有效变量为止。逐步回归完成后选取了x1x2x3x5x6x7x107个较为显著的变量作为自变量,建立下列模型。

二、山东商品房均价预测模型

(一)多元线性回归模型

y=β0+β11+…+βpp+ε

式中,x1x2、…、xp为自变量;β0、β1、…、βp为回归参数;ε表示误差。

利用R语言统计软件对数据进行处理,得到OLS回归模型如下:

y=181.699840.13682x1+0.32470x2-0.11020x3+0.11596x5-36.99708x6+0.19740x7-15.91360x10

显著性结果检验得到:R20.9984,说明此模型对样本的拟合效果非常好;F统计量是1339F检验结果显著,p2.2e-16,综上表明所建立的模型是合适的。

计算模型的回归值与残差:模型通过残差检验,且残差大致服从正态分布,综上判断建立的多元线性回归模型可以用于房价预测。

(二)BP神经网络模型。BP神经网络属于多层前馈神经网络,适合解决复杂的非线性问题,因为一般情况下我们会选取非线性的激活函数,激活函数是通过响应变量的类型来确定的。神经网络的信号是向前逐层传递的,而误差的传播方向是相反的,可以根据预测误差对神经网络的权值、阈值进行适当修改,直至得到期望的输出。

建立BP神经网络模型重点是确定层数与相应的神经元个数,通常情况下我们更多地选择只含有一个隐藏层的前馈神经网络,形式如下:

y=0[■whfh(■wihxi)]

增加隐藏层会使神经网络变得复杂,同时提升神经网络的性能,但这种情况不是绝对的。

隐藏层神经元个数计算公式如下:

n=[■,n1+n2

式中,n1是输入层节点个数,n2是输出层节点个数。

结合文章所提供的的数据建立BP神经网络模型,步骤如下:

1、数据归一化处理。本文建立模型用到的是极差归一化,归一化处理可以有效地消除计量单位差异。进行归一化处理之前,首先要确定数据是否有缺失值,若有缺失值则需要先处理缺失值再对数据进行归一化。本文选取的数据无缺失值,可以直接进行归一化,极差归一化公式如下:

yi=

2、划分训练集及测试集。将19992020年的数据作为训练集,2021年自变量数据作为测试集对原始数据进行划分,利用神经网络处理训练数据。结合上文所述,首先选择使用隐含层为1层的神经网络去拟合训练数据,如图2所示。(图2

2即构建的前馈神经网络模型,其中○线表示权重,①线表示在拟合时添加的偏倚项,这一过程也可以知道损失函数、激活函数等。

3、用测试集来回测所建立的BP神经网络模型的准确性,测试集数据的均方根误差为0.04250304。为了提高预测精度,我们选择继续多次修改模型,结果发现,令阈值与权重仍为系统默认值,不对其进行调整,继续增加一个隐藏层并且神经元数量分别设置为53时,模型效果最好,模型拟合效果及其性能均有所提高。得到理想的模型之后对数据进行反归一化处理,利用修正后的模型进行预测,得出预测准确度达到0.99,预测值十分接近真实值。

4、可视化操作。将含两个隐藏层的BP神经网络模型的拟合值与真实值数据可视化,如图3所示。(图3

从图3可以看出,模型的拟合效果并不是特别理想,但很明显近期的拟合效果要相对较好一些,所以我们发现BP神经网络模型预测时间过长的数据效果不好,所以此模型是不适合于较长时间预测的,预测近期数据的话较为理想。

(三)时间序列模型。ARIMApdq)模型也叫做求和自回归移动平均,公式如下:

?准(B)▽■Xt=Θ(B)εtE(εt)=0Var(εt)=σ2E(εtεs=0s≠t■E((X■εt)=0?st

式中,▽■=1B)■,?准(B)、Θ(B)分别为平稳可逆ARMApq)模型的自回归系数多项式,移动平滑系数多项式,εt为零均值白噪声序列。ARIMApdq)是差分运算与ARMApq)模型的组合,模型建立过程如下:

1、数据的平稳性检验。图419992020年山东省商品房均价数据时序图,从中可以看出数据的波动范围无界,有明显递增趋势,数据呈现不平稳特征。对序列进行单位根检验得到p值为0.9568,这也表明数据是不平稳的,因此需要对其进行差分处理,使数据平稳。(图4

2、原数据白噪声检验。观察数据如果是白噪声序列,说明序列没有相关性,即不需要继续建模。通过LB检验得到,p3.102e-09远小于0.05,因此数据样本为非白噪声序列,通过检验可以继续建模。

3、对不平稳数据进行差分处理。由于原始数据是不平稳的,所以需要对数据进行差分处理。差分后检验数据是否平稳。一阶差分完成之后经ADF检验数据仍然不平稳,继而需要进行二阶差分,二阶差分后进行单位根检验得到p值小于0.05,因此判断二阶差分后该序列显著平稳。

4、模型定阶。二阶差分后数据显示平稳,所以在ARIMApdq)模型中,可以确定参数d2。为方便确定参数pq的值,我们选择直接通过auto.arima函数对模型进行自动定阶处理。自动定阶完成,得出ARIMA021)模型,确定模型之后对模型进行检验,以判断模型是否可以用于预测。

5、模型显著性检验。对ARIMA021)模型的残差序列做白噪声检验,判定该模型是否有效。检验模型ARIMA021)残差序列的相关性,利用Ljung-Box检验得出p0.668,大于0.05,结果表明残差是一个纯白噪声序列,序列不相关,因此可以确定ARIMA021)模型是显著有效的。也可以绘制残差序列自相关图及残差序列正态性检验QQ图更明显地观察序列,如图5所示。(图5

5中,左图为残差序列自相关图,可以明显看出ARIMA021)模型的残差序列为白噪声序列,模型通过检验;右图为残差序列正态性检验QQ图,图上的点密集分布在对称线左右,说明该序列服从正态分布。因此,模型显著成立,可以用来进行下一步的预测。

6ARIMA021)模型预测。利用建立的ARIMA021)模型预测山东省商品房均价,预测结果见图6。图中的点位为2021年预测值,颜色较深的部分是预测值置信水平为80%的置信区间,相对较浅的部分是预测值置信水平为95%的置信区间,实线为拟合值。可以看出,模型整体上拟合效果很好,直到2017年之后拟合精度开始出现大的偏差。通过分析数据以及搜集资料发现:由于受国家政策、基础设施建设、购房者心态等因素的影响,2017年开始商品房价格涨幅突然变大直到2019年之后又相对平稳,这可能就是造成时间序列模型拟合效果出现上述表现的原因,进而也可能影响模型的预测精度。(图6

三、模型比较及预测

由表1的对比结果来看,多元线性回归模型的均方根误差较小,说明多元回归模型的结果与真实值之间的偏差最小,效果最优;从R2拟合优度来看,多元回归模型R2值最大,说明模型拟合效果最好;从平均相对误差来看,BP神经网络模型的平均相对误差最小,表明预测的数据最准确。综上所述,多元线性回归模型是预测效果最稳定的,BP神经网络模型拟合效果要差一些,时间序列模型预测效果不如另外两个模型,但是拟合效果比神经网络的好。(表1

利用上述三种模型分别进行预测,得出2021年山东省商品房均价预测值,并与2021年山东省商品房均价的真实值数据进行比较,如表2所示。(表2

三种模型的预测结果表明:BP神经网络模型的预测数据最接近真实值,预测的精度最高,其次是多元线性回归模型,时间序列模型的预测值相对偏高,与真实值的偏差较大。

四、结论

本文建立多元线性回归模型、BP神经网络模型和时间序列模型对山东省商品房均价进行预测,分析发现:多元线性回归模型更适合长时间的预测,如果预测的时间跨度较长的话可以选用此模型;BP神经网络模型和时间序列模型预测近期的数据较为合适;相比较而言时间序列模型的预测效果稍差,虽然结果在预测范围之内,但预测值要偏高一些,这可能与模型本身对历史数据要求较严格有所关联,模型的预测精度容易受到影响。综上所述,三种模型从整体上来看都可以用于房价预测,可以根据实际情况进行合理选择,但要尽可能地注意一些细节问题,模型还是需要不断改进完善的。

(作者单位:广西师范大学数学与统计学院)

 

主要参考文献:

1]杨贵中.成都商品住宅价格影响因素分析与房价预测[D.成都:西华大学,2007.

2]崔庆都.基于BP神经网络的房价预测[D.成都:西南石油大学,2011.

3]王筱欣,高攀.基于BP神经网络的重庆市房价验证与预测[J.重庆理工大学学报(社会科学),2016.3009.

4]钟丽燕,高淑兰.多元线性回归模型在房价走势分析与预测中的应用[J.科技创业月刊,2017.3009.

5]孙悦.基于时间序列分析的大连市房价分析与预测[D.大连:大连理工大学,2020.

6]卢普庆.合肥市住宅商品房价格影响因素及预测研究[D.合肥:安徽大学,2021.

7]付淇伟,易艳春,张诗佳,丁嘉,汤敏岚.基于ARIMA模型的衡阳市房价预测分析[J.科技创新与应用,2021.1131.

 
版权所有:合作经济与科技杂志社 备案号:冀ICP备12020543号
您是本站第 31506364 位访客