联系我们 |
 |
合作经济与科技杂志社
地址:石家庄市建设南大街21号
邮编:050011
电话:0311-86049879 |
|
|
经济/产业 |
[提要] 通过粗糙集理论的约简算法与支持向量机的分类算法,应用到商业银行信用风险预测。借助用户反馈标记提高了查全率和查准率,使检索的信息更符合语义特征。
关键词:支持向量机;粗糙集;信用风险;信用风险评估
中图分类号:TP301.6 文献标识码:A
收录日期:2012年6月11日
一、引言
随着金融市场的波动性和金融全球化的影响,金融的关注焦点之一的商业银行风险管理面临着极大的挑战。信用风险、利率风险、流动性风险、操作风险、科技风险是商业银行运营过程中面临的金融风险,信用风险占有重要的地位。信用风险是指,借款人由于各种原因,不愿或无力偿还银行贷款本息,使银行贷款无法收回,造成呆账损失的可能性。在商业银行经营中,影响商业银行安全高效运营的主要原因是信用风险。房屋贷款、农业抵押贷款、企业贷款等,导致呆账和不良贷款不断增加,造成流动性危机,最终使其倒闭,给金融业和整个国民经济造成严重损失。所以,加强信用风险尤为重要,对于中国处于市场转型期下的我国商业银行,加强信用风险显得尤为重要。究其原因,商业银行的运营中,不良资产一直是影响我国银行业有效经营的主要因素,呆账坏账的负担是我国商业银行进一步发展的障碍,加强信用风险管理是解决这一问题的关键。
目前,许多定量技术和支持工具、软件已经应用到商业。传统的比例分析、统计方法都得到广泛的应用,如判别分析和Logistic回归等。神经网络、专家系统、分类树也被用于商业银行的信用风险中。在我国,信用分析和评估技术仍然是比例分析阶段,远不能满足商业银行对各种形式贷款安全性的准确测量。核心的信用等级评定时通过对企业的财务报表指标进行分析和评价,然后加权平均确定。该方法带有主观性,所以有很大程度上的缺陷,应以科学的方法确定有效指标和用定量模型解决评估问题。
二、信用风险管理
商业银行信用风险管理包括风险的测量和评估,信用风险管理与控制。信用风险管理与控制包括贷款定价、贷款发放、贷款检查。信用风险分析指引起贷款风险的因素进行定性分析、定量计算,来测量贷款自然人的违约概率,为贷款决策提供依据。信用风险分析时,商业银行的做法一般是遵循5C原则:贷款人的品质(character)、能力(capital)、担保(collateral)、环境(condition),还有LAPP原则:流动性(liquidity)、活动性(activity)、盈利性(profitability)、潜力(potentialities),定性分析借款人目前的财务状况、管理水平、行业经济状况反应还款人能力的指标体系,利用一定的定量技术、评估模型判别借款人的违约概率。
三、信用风险评估模型
国外商业银行处理这一问题的方法是把信用风险分析看成是模式识别中的一类分类问题,将贷款人分为能够按期还本息和违约两类。作法为从历史数据中的若干样本中发现规律,从而总结出分类规则,建立判别模型,用于对新样本的判别,这种方法称“粗暴的经验主义方法”,商业银行信用风险的测度转换为企业财务状况衡量的问题,企业能否如期还本息主要取决于企业的财务状况。指标体系的确立和评估模型的选择,将多维指标综合起来建立模型。目前有统计方法、专家系统、神经网络技术等。随着信息的爆炸式发展,客户信息是海量的,本文先用粗糙集的方法对历史数据进行数据约简,然后用支持向量机进行分类,建立判别模型。
四、粗糙集
信息系统表示为一个决策表(U,A),A=C∪D,C∩D=Φ,C是条件属性集,D是决策属性集,y∈D是整体决策而不是对于“决策子集”W∈U/y的一个局部决策。决策属性y∈D关于条件属性X∈C的支持子集是子集S■(y)=∪■W■ =∪■(∪■V),spt■(y)=∪■W■/U,称为y关于X的支持度。
令Y?哿D是决策属性子集,Y关于X的支持子集是SX(Y)=■SX(W),Y关于X的支持度是sptX(Y)=■sptX(W)/U。从支持子集与支持度可以评价属性的重要性,并显示出属性之间的依赖关系。例如,已知X1?勐X2蕴涵S■(Y)?勐S■(Y),其中,X1,X2?哿C,Y?哿D则x?哿X在X中的重要性为sig■■=■;如果S■(Y)=S■(Y),则称x在X中是不重要的,否则称x在X中是重要的。由所有在X中是重要属性x组成的集合称为X的核(相对Y而言),表示为C■■={x∈X|sig■■>0}。
属性约简就是要找到X?哿C的一个极小子集X0使得S■(Y)=S■(Y),其中X?劢…?劢X0。由于约简不是唯一的,所以依据核属性与对决策属性的支持度可以得出较合理的相对属性约简。
五、支持向量机
SVM就是通过在原空间或经投影后在高维空间构造最优分类面。将给定的属于两个类别的训练样本分开,构造超平面的依据是两类样本距离超平面距离的最大化。
设线性可分样本集(xi,yi)1≤i≤N,xi∈Rd,yi∈{-1,1}是类别标号,d维空间中线性判别函数的一般形式为g(x)=w•x+b相应的分类面方程为w•x+b=0。将g(x)进行归一化,使所有的xi都满足g(x)≥1,即离分类面最近的样本g(x)=1,这样分类间隔就等于2/‖w‖。求解最优分类面就等效于最小化‖w‖,原问题为:
min?椎(w)=■‖w‖■=■(w•w)。S.t. yi(w•xi+b)≥1(i=1,2…l) (1)
采用Lagrange乘子?琢=(?琢i…?琢n)求解该二次规划问题,可以得到最优分类面,其中w=∑?琢yixi,xi是位于分类间隔面上的样本,这些训练样本被称为支持向量,分类函数为:
f(x)=sign■?琢iyixi•x+b (2)
对于线性不可分的情况,SVM引入了松弛变量?孜和惩罚因子C,使目标函数变为:
?椎(w,?孜)=■(w•w)+C■?孜i (3)
另一方面,SVM通过核函数将输入的低维空间的非线形问题映射到高维特征空间线性问题,在新空间上求解最优分类面,线性可分的核函数为K(x,xi)=(x•xi),这样得到的分类函数为:
f(x)=sign■?琢yi•k(xi•x)+b (4)
总之,SVM建立在统计学理论的基础上,在解决小样本、非线性及高维模式识别问题中表现出很多优势,并在许多应用中取得了很好的结果。
六、基于粗糙集与支持向量机的信用风险评估模型
我们引入粗糙集主要借鉴其处理数据的优势:一是粗糙集理论处理数据不需要任何的先验知识,仅利用数据本身提供的数据即可;二是粗糙集理论能表达和处理不完备的互补一致的信息,以不可辩关系为基础,通过约简能从经验数据中获取知识的规则及相互关系。SVM如果所处理的样本的维数较大,就可能导致SVM训练的时间过长,影响到分类的时间复杂行性,在进行分类之前先用粗糙集对数据进行处理,剔除冗余的属性,不但能降低维数,而且能更快地 找到最优的支持向量,使分类面的距离最大化,分类的效果更明显,提高了训练样本的时间和准确性。本文模型加入粗糙集后的分类算法如图1所示。(图1)
在分类过程中,先由用户给出查询,然后有一个排列函数(?专为排列函数的参数)为每个客户信息计算出一个反映该客户与语义特征相关程度的数值,系统按照此参数从大到小把用户信息排列并输出前m个,这样就完成了一次分类过程。
在反馈过程中,用户将部分检出的客户进行标记为相关、不相关,被标记的特征向量f与对应的标记相关类型y构成学习集合S={(f,y)},然后通过相关反馈算法里面的约简函数与SVM分类器进行分类,将学习后的特征向量f′对数据库中的图像进行检索,通过一次或者多次的反馈,最终得到合适的目标结果,本文模型加入粗糙集后的分类算法步骤如下:
1、采用传统的方法对用户信息进行检索;
2、用户对前N个客户样本进行标记得到:相关信息集I+,无关信息集I-;
3、用粗糙集对标记的相关信息集I+和无关信息集I-进行约简,去掉冗余属性得到新的I1+、I1-;
4、用SVM训练样本集(xi,yi),xi∈I1+∪I1-,yi=+1,if■-1,if■;
5、用SVM对训练样本进行学习并构造分类器: f(x)=sign■?琢yi•k(xi•x)+b
6、对信息库中的每个信息Ii,求SCORE(Ii)=-f(xi);
7、对所有信息的SCORE从小到大排序,返回结果。
8、对找到的最优结果进行标注,用粗糙集的约简算法对其关键属性进行约简,得到此次检索最优的支持向量,为进一步的增量学习提供更优的分类器。
由于每次检索时用户标记的都是在特征空间中距离查询图像中最近的信息,同时,在前N个反馈的信息中未标记的无关的信息也离查询信息较近,因此非常适合用SVM构造分类器,因为支持向量是位于分割平面上的样本,而距离分割面远的样本对分类器的构造是没有影响的,因此通过有限的标记和反馈却能把特征空间中相关和不相关的信息分开,进一步地检索也能够找到更多的信息。
七、结语
本文借鉴相关文献中的试验数据和文献分类模型分析得出如下结论:基于支持向量集与粗糙集的混合分类算法有效地解决了SVM算法中的时空性能问题,降低了维数灾难,应用到商业银行信用风险预测,由于用户的参与更能使检索的结果接近用户的语义特征,因此该算法具有简单、高效、查全率等优点。
(作者单位:包商银行)
主要参考文献:
[1]Freeman A.A survey of international banking.The Economist,1993.
[2]Saunder A.Financial Institutions Management.Boston:Irwin,Inc.,1994.
[3]世界银行.新兴市场经济中的商业银行.北京:中国财政经济出版社,1994.
[4]曾国坚,何五星.银行风险论.北京:中国计划出版社,1995.
[5]Freedman R S,etal use of multiple measurements in taxonomic problens.Ann.Eugenics,1936.7.
[6]Burges C J C.A tutorial on support vector machines for pattern recognition.Data Mining and KnowledgeDiscovery,1998.2.2. |
|
|
|