首页 期刊简介 最新目录 过往期刊 在线投稿 欢迎订阅 访客留言 联系我们
新版网站改版了,欢迎提出建议。
访客留言
邮箱:
留言:
  
联系我们

合作经济与科技杂志社

地址:石家庄市建设南大街21号

邮编:050011

电话:0311-86049879
友情链接
·中国知网 ·万方数据
·北京超星 ·重庆维普
市场/贸易
合肥市二手房价多元线性回归预测模型
第608期 作者:□文/黄明宇 夏 典 时间:2019/5/1 17:21:42 浏览:1117次

  [提要] 房地产价格变化一向是社会关注的热点。本文从链家二手网站上爬取了近万组合肥市截止到20183月的最新二手房交易数据,据此建立因变量为二手房售价,自变量分别为建筑面积、使用年限、户型等11个变量的多元线性回归模型,并对模型进行优化,最终得到较优的二手房价预测模型,为合肥二手房交易各方提供一种有实用价值的房价定价工具。

  关键词:合肥二手房价格;房价预测模型;逐步回归

  本文为云南师范大学研究生核心课程建设项目(项目编号:YH2018-C08);指导老师:郭民之

  中图分类号:F293.3 文献标识码:A

  收录日期:2019225

  一、引言

  住房是我国城乡居民的一个基本生活需求,房屋价格一向是社会热点话题。2016年内合肥房屋均价涨幅为48.4%,涨幅排名全球第一,受到了国内外特别关注。本文选用了涉及建筑面积、户型、区域均价等13个影响因素共9185组合肥市二手房相关交易数据,据此建立二手房售价预测模型,并对模型进行优化,为合肥二手房交易各方提供了一种有实际价值房价定价工具。

  二、数据预处理

  本文数据主要来自链家二手房网(https//hf.lianjia.com),全部为介于20173月至20183月合肥二手房交易相关数据,首先对原始数据进行拆分、归类和缺失值处理,共得到9185组有效数据,每组数据中Price(房价)为因变量,其余13个变量为自变量,分别为:Avep(区域均价)、Deco(装修程度)、Towards(房屋朝向)、HT(户型)、HA(建筑面积)、TF(该楼层高度)、KF(楼层段)、HY(使用年限)、Focus(网络关注人数)、Visit(看房人数)、Ad(信息发布时间)、HCY(房产证是否满五年唯一)、NTS(是否靠近地铁站)。例如变量区域均价Avep就包括政务区、滨湖区、蜀山区、庐阳区、包河区、瑶海区六个城区的二手房均价、装修程度分为精装、简装、毛坯和其他四类;其余自变量类似处理,这里略。本文主要考虑二手房交易中常规的交易数据,故将原始数据中价格超高的数据(超过1000万)直接删除。

  三、多元线性回归模型

  (一)模型定义。多元线性回归模型通常用来描述因变量ypp≥1)个自变量x1x2xp之间的线性相关关系,模型形式为:

  y?0+?1x1+…+?pxp+?

  其中,?0?1?p是回归系数,?着~N0?2)是随机误差。

  (二)建立模型。本文借助R软件中线性回归函数lm()给出模型回归系数的最小二乘估计,并对回归方程和回归系数进行显著性检验,程序输出结果见表1,从中看出检验统计量F所对应的p值为2.2×10-16,说明回归方程是非常显著的,但是对诸回归系数的t检验所对应的p值显示自变量TowardsKF不显著,其余自变量和常数项显著;判定系数R2等于0.8349,拟合程度较高。(表1

  下面,用R软件中的逐步回归函数step()对上面建立的线性回归方程进行变量筛选和优化,程序输出结果见表2所示。(表2

  结果显示采用全部自变量作回归(即<none>所对应的情形)时,AIC63173,当去掉不显著自变量Towards时,AIC达到最小值63171。当去掉另一个不显著的自变量KF时,AIC值为63173,与<none>情形所对应的AIC值一样。进一步用Viewdrop1lm.step))函数查看在逐步回归模型(即已去掉Towards后的模型)基础上再逐一强制去掉一个自变量后的各种可能情形。可见,去除KF变量后,AIC稍稍变大:从63171.47变为63171.50,但变大的幅度很小。对应残差平方和(sum of Sq1967.737最小,所以最终决定在原模型中去除TowardsKF两个变量。

  现用R软件中函数summary()函数观察Price关于AvepDecoHT(不包括TowardsKF变量)等11个变量的回归模型的信息,并同样做逐步回归,结果如表3所示。(表3

  从表3中,看出检验统计量F所对应的p值几乎为零,说明回归方程是非常显著的,对诸回归系数的t检验所对应的p值显示全部11个自变量和常数项均显著;判定系数R2等于0.8349,模型拟合效果较好。

  综上所述,我们得到了较优模型:

  Price=-168+0.009849×Avep+2.99Deco+1.49×HT+1.754×HA+0.2396×TF-0.6414×HY-0.3608×Focus+0.3472×Visit-0.4947×Ad-2.587×HCY+2.01×NTS

  从模型中可以看出,因变量PriceAvepDecoHTHATFVisitNTS7个自变量成正相关关系(区域均价上涨、或装修程度越高、或住房面积越大、或户型越好等必然会导致房价越高),因变量PriceFocusAdHYHCY4个自变量成负相关关系(网络关注度高(但无人买),或发售日期长,或使用年限长,或待售房产满五唯一,会导致房价下降)。可见,本文所得到的房价预测模型与二手房交易的实际意义是相符合的。

  四、模型的交叉验证及实际预测示例

  用十折交叉验证法对模型预测结果做交叉验证,其平均标准化均方误差(NMSE)为0.1659765,远小于1,模型交叉验证效果较好。

  再随机抽取链家二手网上已经成交的10套房的房价与模型预测的房价作对比如表4所示。(表4

  预测模型使用说明:合肥某人有一房产,一个月前在链家二手交易市场中发布房屋出售信息,信息如下:房屋地处政务区,32厅,建筑面积为120平方米,简装房,共2层,房屋使用2年,网络关注有2人,0人参观,房产证没有满五年,靠近地铁站。将上述信息量化后带入到模型中,计算出的房价为255.49万元。于是买卖双方可在255.49万元这个参考价格进行议价,最终完成交易过程。

  五、总结与评价

  本文中最终得出了拟合度较高的房价预测模型,为合肥市二手房交易提供了一个有实用价值的房价参考定价工具,买卖双方或中介公司只要将模型中所需的变量值带入,就可得出相对应的二手房价,在这个参考房价上双方可以商议具体房屋交易价格。

  当然,模型也存在着一些问题。根据经验,建立模型时去除的自变量Towards(房屋朝向)和KF(楼层处于哪段),在二手房交易中往往也是不能忽略的因素。另外,由于数据是从网络收集到的,有的重要数据资料难于收集,比如是否为学区房、房屋建筑的安全系数等。所以,模型还可以结合实际数据作进一步的优化。

(作者单位:云南师范大学数学学院)

主要参考文献:

1]中商情报网.http//www.askci.com/news/dxf/20170119/

16085988495.shtml2017.1.19.

2]合肥链家网.https//hf.lianjia.com/.

3]南方财富网.http//www.southmoney.com/paihangbang/201712/1834628.html2017.12.

4]费宇.郭民之.陈贻娟.多元统计分析——基于RM.北京.中国人民大学出版社,2014.

5]郭会利.多元回归分析的逐步回归预测模型[J.考试周刊,200926.

 
版权所有:合作经济与科技杂志社 备案号:冀ICP备12020543号
您是本站第 3359425 位访客