首页 期刊简介 最新目录 过往期刊 在线投稿 欢迎订阅 访客留言 联系我们
新版网站改版了,欢迎提出建议。
访客留言
邮箱:
留言:
  
联系我们

合作经济与科技杂志社

地址:石家庄市建设南大街21号

邮编:050011

电话:0311-86049879
友情链接
·中国知网 ·万方数据
·北京超星 ·重庆维普
市场/贸易
基于网络舆情分析的电子商务产品价格预测模型
第586期 作者:□文/杨茂保 时间:2018/6/1 9:37:49 浏览:965次

[提要] 随着网络和数据处理技术的快速发展,网络舆情分析可以用来探索多种可能性,从互联网新闻产品或产品的价格销售行为和重要品牌策略的影响,分析影响产品价格的新闻,建立一种新的价格预测模型。结果表明:重大新闻事件对电子产品的销售价格有影响,可以提高价格预测的准确性,因此我们提出一种新的电子商务产品价格预测模型。

关键词:电子商务;预测;情感分析

中图分类号:F724.6 文献标识码:A

收录日期:2018317

一、引言

2018We Are SocialHootsuite最新全球数字报告显示,全球使用互联网的网民数量已经超越40亿,而同期的全球人口数量大约为76亿,尤其是网络新闻日益增多,已经成为影响人们行为的最重要的信息来源之一,对电子商务产品的销售产生巨大的影响。通过分析这些新闻,我们可以了解销售行为和其他重要的营销策略。

我们主要对房产和电子产品使用百度情感新闻的价格预测,这是中国对新闻内容和提取关键事件对产品相关的知名门户网站,所得结果通过网络舆情分析得到。

二、相关文献

研究学者对敏感产品价格的预测问题给予了相当的重视,大量的文献集中在商品价格预测问题上,通过寻找合适的预测方法来提高价格预测的准确性,现有研究的重点是价格预测的可靠性和准确性,因为提高价格预测的准确性有助于检测价格波动。长期以来,学者们预测过敏感的商品价格,经济学家首先分析1931年石油价格,使用ARIMA模型拟合伊比利亚电力市场,并预测前一天的价格等。随着预测算法的发展和交叉研究的发展,传统的统计预测方法已无法实现非线性数据的预测,学者们开始寻找适合于波动数据的预测方法来预测相关产品的各个方面,现代预测方法更适合于数据的非线性波动,因此得到了广泛的应用。例如,利用小波理论模型拟合原油价格,并将预测结果与期货市场数据进行比较,发现短期预测效果有所改善。有学者利用模块化神经网络模型对东京证券交易所的股票价格进行预测,并在股票市场交易模拟中得到了准确的预测,获得了良好的收益,也有学者模拟与人工神经网络预测模型的黄金价格,并比较了均方根误差(RMSE)和平均绝对误差(MAE)的预测结果与ARIMA模型。结果表明,人工神经网络模型的预测精度较高。有学者用BP神经网络模型预测2011年和2013年之间中国钢铁价格指数,实际预测的相对误差为0.32%,结果表明,BP网络具有良好的预测能力。目前的价格预测应用程序是基于统计和机器学习方法,如图1所示。(图1

我们使用自回归模型(AR)和移动平均模型(MA)、支持向量机(SVM)、回归分析和其他价格预测方法同时进行时间分析。然而,传统统计方法的应用局限于较多的客观因素,导致许多统计分析方法难以获得理想的结果。随着研究的迅速发展和多样化,以及灰色模型理论、马尔可夫链、小波理论和神经网络模型的广泛应用,结合各种方法来提高预测精度,如使用多元回归方法。目前,传统的计量经济学方法仍然是敏感商品价格预测中最常用的方法。由于传统的非线性和黑色系统价格预测方法的精度较差,现代价格预测方法得到了广泛应用。有学者建立GM11)模型与所产生的后验误差之间的预测和实测值0.172预测在中国的一家上市公司的股票价格,显示出良好的预测精度,也有学者应用灰色模型预测市场的电力需求,其效果优于ARIMA模型。这些研究表明,灰色模型的应用对随机因素的处理有较好的效果,丰富了灰色预测模型的理论。为了提高价格预测的准确性,多种预测方法的结合充分利用了各自的优点,避免了它们的缺点。组合预测系统有不同的形式,如传统测量方法和现代预测方法的结合,不同的组合提高了不同程度的预测精度。

三、研究方法

重点分析了价格预测算法和网络舆情新闻处理算法的推导和重要应用场景,并对传统的统计预测方法和BP神经网络算法进行了简要分析。

(一)价格预测算法。时间序列是给定统计指数在不同时间点的序列值。将时间序列数据作为随机过程的样本进行分析,序列可以用模型近似描述。下面介绍三种基本模型。

1、移动平均(MA)模型

1MA模型的基本形式。MA模型一般形式如下:

yt=u+?t+?1?t-1+?2?t-2++?q?t-q

其中,u为常数项,?1?2?q为模型的系数,?t为白噪声序列。我们称上述方程为q阶移动平均模型,记为MAq)。

2MA模型的可逆性。对于一个MAq)模型:

yt=u+?t+?1?t-1+?2?t-2++?q?t-q

将其写成滞后算子的形式:

ytu=1+?1L+?2L2++?qLq?t

若方程1+?1L+?2L2++?qLq0的根全部落在单位圆外,则称MA模型是可逆的。可逆性可以保证MA模型可以改写成:

?鬃(L)(ytu)=?t

MA模型可以转化为AR模型,同时可以保证参数估计的唯一性。

2、自回归(AR)模型

1AR模型的基本形式。AR模型的一般形式如下:

yt=c+?1yt-1+?2yt-2++?pyt-p+?t1

其中,c为常数项,?1?2?p为模型的系数,?t为白噪声序列。我们称上述方程为p阶自回归模型,记为ARp)。

2AR模型的平稳性。此处的平稳性是指宽平稳,即时间序列的均值,方差和自协方差均与时刻无关。即若时间序列{yt}是平稳的,即Eyt)=?滋,Varyt=?2Covytyt-s)=?s2

为了描述的方便,对式(1)的滞后项引入滞后算子。若ytxt-1,定义算子“L”,使得ytLxtxt-1L称为滞后算子。由此可知,Lkxtxt-k

对于式(1),可利用滞后算子改写为:

yt=c+?1Lyt+?2L2yt++?pLpyt+?t

移项整理,可得:

1-?1L-?2L2--?pLpytc+?t

ARp)的平稳性条件为方程1-?1L-?2L2--?pLp0的解均位于单位圆外。

3、自回归移动平均(ARMA)模型

1ARMA模型的基本形式。ARMA模型的一般形式如下:

yt=c+?1yt-1+?2yt-2++?pyt-p+?t+?1?t-1+?2?t-2++?p?t-q

显然ARMApq)模型可看成是ARp)模型和MAq)模型相结合的混合形式。

2ARMA模型的平稳性和可逆性。对于一个ARMApq)模型:

yt=c+?1yt-1+?2yt-2++?pyt-p+?t+?1?t-1+?2?t-2++?p?t-q

将其写为滞后算子的形式:

1-?1L-?2L2-L-?pLpytc+1+?1L+?2L2+L+?qLq?t

两边同时除以(1-?1L-?2L2-L-?pLp

yt?+?鬃(L?t

其中:

?滋=■

?鬃(L)=■

由此可以看出,ARMA模型的平稳性完全取决于ARp)模型的参数,与MAq)模型的参数无关。

类似的,ARMA模型的可逆性完全取决于MAq)模型的参数,与ARp)模型的参数无关。

3ARMA模型的数字特征

①期望。对于一个一般的ARMApq)模型两边同时取期望,化简得:

Eyt)=■

②自协方差函数:

rkEytyt+k=E[(■Gi?t-i)(■Gj?t+k-j)]

E[(■GiGj?t-i?t+k-j

?2GiGi+k

(二)网络舆情(新闻)分析算法。从互联网提取数据,需要有针对性地选择信息获取渠道,其中最为重要的是价格数据的实时性和准确性,通过爬虫技术对百度等互联网新闻信息进行数据分析获取,运用机器学习的方法,对句子进行切分,删除停止词、分词,分析文本语义,对整个新闻文本进行分析。句子切分后,新闻的语义结构更加清晰。

本文所使用到的数据均来自定制爬虫从互联网相关的网站中抓取,要完成通过互联网事件的分析达到对价格预测的目的,需要全面而又可靠的第一手资料,其中事件信息是通过搜索引擎中针对专业相关的事件新闻进行爬取,而要想获得实时准确的价格数据也必须抓取针对行业权威的价格数据报价网站,不仅数据齐全可靠而且确保了很好的实时性能。

在采集模块中,爬虫的架构分别采用了两套定制方案,针对不同的数据来源定制不同的爬虫方案,更为有效的解决以上涉及到的数据采集的相关问题,针对结构化数据采用Scrapy框架定制,非结构化的则采用动态页面采集技术解决数据采集定位问题。(图2

 

 

 

 

 

 

 

分析一个句子是积极的还是消极的,最简单、最基本的方法是找出句子中的词的情感。这些可以是正面情绪的话,如赞、好、顺手和华丽等,或消极情绪的话,如差、烂、坏等。当正面情绪词出现时,提高了产品价值;当负面情绪词出现时,降低了产品价值。并将情感词设置等级,程度词等级如表1所示。(表1

 

 

 

 

 

 

 

 

(三)网络舆情文本分类方法描述。对网络舆情新闻文本情感分类和可信度分类中,前者用的是支持向量机、朴素贝叶斯方法以及逻辑回归分类算法,后者则不仅采用了上述方法,还用了决策树和随机森林的方法。逻辑回归方法常用于数据挖掘,将一事件出现的概率拟合到逻辑曲线上,把文档中程度词概率适应到曲线上就可以得到文档的类别。计算公式如下:

fz==z=?0+?1?1+?k?k

朴素贝叶斯文本分类方法是计算事件文本属于某一个类别的概率判别类别。计算每个情感词属于类别的概率,从而就可以确定新闻文档属于那一类别的概率,对于情感词的概率统计可以统计重复的次数。因此,找出概率最大的,就可以完成事件分类了。采用贝努力模型和多项式模型,其中贝努力模型中仅仅考虑某一情感词是否在文本中出现,而多项式就不仅考虑词是否出现,还要考虑出现的次数。计算方式如下:

py=cjx)=■

使用的是支持向量分类(SVC)方法,在样本空间中,将样本分为两个类别,并使区分间隔最大化。这样就可以得到目标函数,并且约束条件就是函数间隔最大。因此,就建立了约束条件与目标函数,在约束条件下不断优化目标函数就可以得到系数,使得间隔距离最大。

四、小结

本文提出一种基于时间序列和情感分析的电子商务产品价格预测模型。它从互联网网站获取相关电子新闻,并进行相关文本分析,随后集成到商品价格预测算法中,以提高预测精度。根据实验结果,我们提出的方法在预测精度方面优于传统方法。在所研究的模型中,通过使用ARMA-ARMA(信号、情感、自回归和移动平均)模型,得到最好的预测性能。除了实验,我们已经建立了一个原型系统,证明我们的想法的可行性。

(作者单位:九江学院)

 

主要参考文献:

1]蔡志文,林建宗.面向价值的O2O电子商务信任预测模型[J.计算机工程与应用,2015.51.7.

2]张斌.基于回声状态网络的短期股价预测模型[J.计算机应用与软件,2017.5.

3]薛倩男.基于时间序列的GA-BP神经网络股价预测模型[J.兰州文理学院学报,2017.5.

4]段青玲.基于时间序列GA-SVR的水产品价格预测模型及验证[J.农业工程学报,2017.33.1.

 
版权所有:合作经济与科技杂志社 备案号:冀ICP备12020543号
您是本站第 4276424 位访客