[提要] 近年来,广义可加模型(GAM)在非寿险中得到广泛的应用,随机森林作为极具代表性的一种集成学习方法在非寿险领域也取得很好的效果,为非寿险产品定价提供了一种新的选择。因此,本文针对一组具有零膨胀特征的索赔次数数据,建立零膨胀泊松分布和零膨胀负二项分布下的GAM模型,并将其与随机森林模型进行比较分析。结果表明:预测效果最优的是基于零膨胀泊松分布的GAM模型。在此基础上,对各解释变量进行分析,为车险费率的厘定提供一定的参考。
关键词:索赔次数;零膨胀;GAM模型;随机森林
中图分类号:F84 文献标识码:A
收录日期:2021年11月10日
在对车险的研究中,车险费率占据着举足轻重的地位,因此保险公司必须建立适合的定价模型来厘定更为合理的费率。一般来说,车险费率模型主要分为索赔频率模型和索赔强度模型,本文仅考虑索赔次数的预测模型。由于实际中的索赔次数通常具有零膨胀性质,故Yip和Yau(2005)引入零膨胀模型,并分别用ZIP、ZINB、ZIGP、ZIDP回归模型拟合车险索赔次数,结果表明零膨胀模型可以改善对数据的拟合效果。广义线性模型(GLM)作为车险费率厘定中最常用的模型,却不能有效地处理非线性问题,故Hastie等(1986)提出广义可加模型(GAM),可以将连续型解释变量以平滑函数形式引入回归模型,改善模型的预测精度。关于GAM模型的应用,Günther等(2014)利用广义可加模型预测客户离开保险公司的风险概率,发现广义可加模型能很好地识别解释变量之间的非线性关系。张连增和申晴(2019)使用广义可加模型对交强险索赔频率建模,并对索赔频率影响因素进行分析。
随着信息技术的迅速发展,机器学习成为统计领域的热门工具。在车险费率研究中,Guelman(2012)使用梯度提升树对索赔频率和索赔强度进行预测,结果显示该模型的预测效果比GLM模型的效果要好。孟生旺(2012)对索赔频率的线性回归模型、广义线性模型、神经网络、回归树进行比较,发现神经网络的预测效果优于各种广义线性模型,而回归树仅优于线性回归模型。Lee和Antonio(2015)对索赔频率分别建立GLM模型、GAM模型、神经网络和决策树,通过比较发现神经网络的预测效果最佳。Wüthrich和Buser(2017)对机器学习诸多算法的基本原理进行简要梳理,并分别介绍这些算法在非寿险定价中的简单应用。Noll等(2018)用GLM模型、回归树、提升算法和神经网络等对索赔频率进行建模分析,并比较几个模型在建模中的表现。张连增和谢厚谊(2018)使用泊松回归树和bagging方法对车险索赔频率进行预测,研究结果表明回归树的效果不如广义线性模型,而bagging法可以提高回归树的预测能力。曾宇哲等(2019)用多种机器学习方法和GLM模型对7个数据集进行拟合,结果显示在所有数据集上XGboost的预测效果均优于GLM模型。
本文选用随机森林和基于零膨胀泊松分布和零膨胀负二项分布的GAM模型对一组实际车险索赔数据中的索赔次数进行研究分析,并对不同模型的预测效果进行比较,探究更为合理的预测方法,为车险索赔频率研究提供一定的参考。
一、预备知识
(一)车险索赔次数分布。用随机变量Y表示保单的索赔次数,i=1,2,3…,若Y服从零膨胀分布,则根据Yip和Yau(2005),其概率函数表示如下:
P(Y=0)=?准+(1-?准)P(K=0),y=0
P(Y=y)=(1-?准)P(K=y),y=1,2,3,…
式中,?准为发生事故但未索赔的概率,0<?准<1,K为随机变量。
当随机变量K为服从均值为μ的泊松分布时,随机变量Y服从零膨胀泊松分布(ZIP),其概率函数可表示为:
P(Y=0)=?准+(1-?准)e-μ,y=0
P(Y=y)=(1-?准)■,y=1,2,3,…
当随机变量K为服从参数为r和μ负二项分布时,随机变量Y服从零膨胀负二项分布(ZINBI),其概率函数可表示为:
P(Y=0)=?准+(1-?准)■■,y=0
P(Y=y)=(1-?准)■■■■■,y=1,2,3,…
当?准=0时,零膨胀分布退化为泊松分布和负二项分布。
(二)GAM模型。设YT=(Y1,Y2,…Yn)为响应变量的n维向量,其服从指数族分布。据Hastie等(1986)所述,GAM模型的结构表示如下:
g(μ)=η=Xβ+h1(x1)+…+hj(xj)
其中,μ为响应变量Y的均值,g(·)为连接预测项η和均值μ的连接函数;向量X为具有线性影响的解释变量,β表示参数向量,则Xβ为解释变量的线性影响函数;xj(j=1,2,…J)是具有非线性影响的解释变量,hj(·)是关于xj的非参数平滑函数。
(三)随机森林。随机森林是Breiman (2001)提出的一种以CART决策树为基础的集成学习模型。随机森林模型的适应性较强,不容易产生过拟合问题,它既可以用于分类也可以用于回归。随机森林的生成步骤如下:
1、用Bootstrap方法从样本容量为K的训练集中有放回地随机抽取等量的样本,作为一棵决策树的训练样本。
2、决策树由根节点开始自上而下递归分裂。在决策树的每个节点需要分裂时,从样本中的M个特征(解释变量)中随机选取m个特征(m<M),再从m个特征中挑选一个最优特征对节点进行分裂。
3、决策树的形成过程中每个节点均按照步骤2进行分裂,直到节点无法继续分裂时停止。随机森林中的决策树都随意生长,不需要进行剪枝。
4、按照上述3个步骤生成N棵回归树,从而构成随机森林。在回归问题中,由森林中的每一棵决策树分别输出一个预测值,所有决策树的预测值的平均值即为随机森林的输出值。
随机森林的生成依赖于两个极为重要的参数,即随机选取的特征个数mtry和随机森林中决策树的数量ntree,它们影响着随机森林模型的分类能力。
(四)模型评价
1、在选择GAM模型时,本文采用AIC、BIC准则进行比较。一般来说,AIC和BIC的值越小,模型的拟合效果越好。AIC和BIC的定义如下:
AIC=-2lc+2k
BIC=-2lc+k·lnn
其中,lc是对数似然函数,k是模型中未知参数的个数,n是模型中的观测值个数。
2、本文使用均方根误差(RMSE)对随机森林和GAM模型进行比较,其表达式如下:
RMSE=■
其中,yi表示观测值,■i表示模型预测值,n是模型中的观测值个数。RMSE表示预测值与实际观测值之间的平均偏差,其值越小,说明模型的预测效果越好。
二、实证分析
(一)数据描述与预处理。本文使用的是AutoClaim数据集,该数据集是从SAS Enterprise Miner数据库中检索的一组汽车第三方责任保险数据,其包含10,302份保单和27个变量。为了便于计算和减小模型预测误差,本文进行了变量筛选。首先,剔除无关变量ID(订单编号)、BIRTH(出生日期)、OLDCLAIM(累计索赔金额)和CLAIM_AMT(当期索赔金额),然后采用向后逐步回归对其余变量进行降维。根据向后逐步回归的结果,本文选取了12个变量作为解释变量,各解释变量及其具体信息如表1所示。(表1)
在处理缺失值和异常值后,得到的数据集包含7,647个样本。进而,本文分别从索赔次数为0、1、2、3、4、5的保单中随机抽取80%的保单形成训练集,其余20%的保单数据形成测试集。对索赔次数作简单统计,具体情况如表2所示。(表2)
表2显示,在训练集和测试集中,均有超过60%的数据索赔次数为0,说明该组数据具有零膨胀特征。训练集中有12.5%的保单发生1次索赔,26.4%的保单发生2次以上索赔,索赔次数为5的保单出现频率最低,仅为0.02%;测试集中有11.2%的保单发生1次索赔,25%的保单发生2次以上索赔,索赔次数为5的频率仅为0.03%。
(二)GAM模型拟合。本文在索赔次数服从泊松分布、负二项分布、零膨胀泊松分布和零膨胀负二项分布的条件下建立GAM模型。计算不同模型的AIC值和BIC值,结果如表3所示。(表3)
由表3可知,零膨胀模型优于普通的泊松回归模型和负二项回归模型,且通过比较AIC值和BIC值发现,ZIP分布下建立的GAM模型拟合效果最优。本文对其进行参数估计,估计结果如表4所示。(表4)
根据参数估计表,在Yi服从零膨胀泊松分布下,得到的GAM模型如下所示:
log(μi)=0.040+0.141CLAIMFLAG(1)-0.105CARUSE(Private)+0.035HOMEKIDS+0.149MSTATUS+0.092MVRPTS+0.082REDCAR-1.227URBANICITY(Rural)+cs(TRAVTIME)+cs(BLUEBOOK)+cs(HOMEVAL)+cs(INCOME)+cs(AGE)
可以看出,几乎所有解释变量都对均值有显著影响。上报索赔的投保人有较多的索赔次数;相对于商务车来说,私家车具有较少的索赔次数;对于已婚的投保人来说,未婚投保人的索赔次数更多;违规记录和孩子数量的系数为正值,说明违规记录和孩子数量越多的驾驶人发生索赔的次数越多;红色车辆发生索赔的次数比其他颜色的车辆更多;而在乡村行驶的车辆索赔次数比城市更少。表4中的非参数变量系数及其标准误差仅指平滑器的线性部分,且这五个非参数变量无法简单地用数学形式描述,画出其对索赔次数的影响效应图,具体如图1所示。图(a)、(b)、(c)、(d)、(e)分别表示驾驶人年龄、上班距离、住房价值、年收入和汽车价值对索赔次数的影响,图中横坐标表示解释变量的实测值,纵轴表示平滑函数值,阴影表示置信区间上下限,中间实线表示索赔次数的平滑拟合曲线。通过图1可以发现,驾驶人年龄和上班距离对索赔次数的影响较为平稳;随着住房价值的增加,索赔次数略有下降,随后变得平稳;年收入与索赔次数呈现非常强烈的非线性关系,索赔次数处于波动状态;车辆价值与索赔次数呈负相关,车辆价值越大,索赔次数越少。(图1)
(三)随机森林的构建。随机森林模型可以用R语言中的randomForest包实现。在利用训练集建立随机森林模型之前,需要使用十折交叉验证来寻找使模型均方根误差(RMSE)最小的最优参数mtry和ntree,mtry是指树节点用于分裂的变量个数,ntree是指随机森林所包含的决策树数目。
首先,根据RMSE确定最佳mtry值。本文解释变量有12个,故将mtry参数设置为1~12进行建模,计算不同mtry取值下的RMSE值,RMSE随着mtry的变化如图2所示。可以看出,随着mtry的值增大,RMSE的值先减小后增大,在mtry的值为2时,RMSE的值最小,因此本文选择2作为最优mtry值。(图2)
其次,根据RMSE确定最佳参数ntree。在mtry=2的条件下,使ntree分别等于100,200,…,1000,依次计算RMSE的值,绘制RMSE与ntree的关系图,如图3所示。(图3)
从图3可以看出来,当ntree的取值为500时,RMSE的值最小。故本文选择500作为ntree参数的取值。经过交叉验证,索赔频率预测模型的最优参数为mtry=2,ntree=500。以此参数建立随机森林模型,并用该模型对测试集进行预测。
(四)模型比较。本文将ZIP分布和ZINBI分布假设下的GAM模型以及随机森林模型用于测试集中,并计算各自的RMSE。(表5)
如表5所示,发现ZIP-GAM模型的预测效果最优,其次是ZINBI-GAM模型。相比之下,随机森林的预测效果最差,这可能在于索赔次数数据不平衡,导致模型训练受到影响,进而影响了模型的预测效果。
三、结论
本文对一组实际车险索赔数据分别建立GAM模型和随机森林模型,并进行了比较分析,结果表明基于零膨胀泊松分布假设下的GAM 模型比随机森林在费率厘定中具有更大的优势。相比之下,GAM模型不仅具有更好的预测能力,而且其对预测结果的可解释性比随机森林模型强,可以清晰地展示出每个解释变量对索赔次数的影响程度。但随机森林也有一定的优越性,在其建模前不需对数据进行预处理。
综上,随机森林和GAM模型各有优点,在实际生活中可以根据不同的条件选择合适的方法。同样的,这两种模型也能应用于索赔强度或保费定价中,对保险公司的费率厘定和客户选择有一定的参考价值,以改进费率厘定结果的合理性。
(作者单位:南京信息工程大学)
主要参考文献:
[1]Guelman L.Gradient boosting
trees for auto insurance loss cost modeling and prediction[J].Expert Systems with Applications,2012.39(03).
[2]Günther
C,Tvete I F,Aas K,Sandnes G I,Borgan.Modelling and predicting
customer churn from an insurance company[J].Scandinavian Actuarial Journal,2014.01(03).
[3]Hastie T J,Tibshirani R.Generalized additive models[J].Statistical Science, 1986.01(03).
[4]Lee S C,Antonio K.Why high dimensional modeling in actuarial science[J].Institute of Actuaries of Australia,2015.04(05).
[5]Noll A,Salzmann
R,Wüthrich M V.Case Study:French Motor Third-Party Liability Claims[J].SSRN Electronic Journal,2018.04(18).
[6]Rigby R A,Stasinopoulos D M.Generalized additive models for location,scale and shape(with discussion)[J].Applied Statistics,2005.54(03).
[7]孟生旺.神经网络模型与车险索赔频率预测[J].统计研究,2012.29(03).
[8]卢志义,蔡静.车险费率厘定的索赔概率预测模型及其比较分析[J].河北工业大学学报,2017.46(03).
[9]曾宇哲,吴嫒博,郑宏远,罗来娟.基于机器学习的车险索赔频率预测[J].统计与信息论坛,2019.34(05).
[10]张连增,申晴.我国交强险索赔频率影响因素分析——基于GAM和广东、河南、湖北、山东的经验数据[J].财经理论与实践,2019(04).
|