首页 期刊简介 最新目录 过往期刊 在线投稿 欢迎订阅 访客留言 联系我们
新版网站改版了,欢迎提出建议。
访客留言
邮箱:
留言:
  
联系我们

合作经济与科技杂志社

地址:石家庄市建设南大街21号

邮编:050011

电话:0311-86049879
友情链接
·中国知网 ·万方数据
·北京超星 ·重庆维普
经济/产业

信息类别

首页/本刊文章/第375期/管理/制度/正文

发布时间

2009/8/3

作者

□文/景 艳

浏览次数

949 次

WEB文本挖掘在客户知识管理中的应用
  提要 本文以客户知识管理需求为出发点,对WEB页面中富有知识资源价值的WEB文本及其挖掘方法进行研究,提出客户知识管理中的WEB文本挖掘采集方法,为进一步实现分布式知识资源的动态配置与管理打下了良好的基础,从而更好地支持客户知识管理实施。
  关键词:知识管理;客户知识采集;WEB文本挖掘
  中图分类号:C93 文献标识码:A
  一、引言
  随着知识经济的发展,企业基于信息的竞争优势正在向基于知识创造的竞争优势发展,知识作为一种稀缺资源成为经济发展的核心要素。企业的知识资产不仅可以增加企业的市场竞争力,不断充实企业知识资本,累积企业实力,还能更好的支持企业管理。因此,知识管理作为企业管理的新模式悄然兴起,实施知识管理成为企业的重要战略。
  在客户关系管理中,传统的方法是采用客户服务模式处理客户的信息和知识,其核心是建立基于售后服务的客户知识采集、反馈体系。本文以客户知识采集需求为基础,以WEB文本中的客户知识为采集目标,以WEB文本挖掘的相关方法与技术为手段,创建了基于WEB文本挖掘客户知识采集方法,具有很广的研究和应用价值。
  二、基于WEB文本挖掘的客户知识管理方法
  (一)知识管理的概念。世界知识管理之父Sveiby博士1986年在世界上首次提出知识管理这个名词。知识管理的概念可从狭义和广义的角度理解:狭义的知识管理主要是针对知识本身的管理,包括对知识的创造、获取、加工、存储、传播和应用的管理;广义的知识管理不仅包括对知识进行管理,而且包括与知识有关的资源和无形资产的管理,涉及知识组织、知识设施、知识资产、知识活动、知识人员的全方位和全过程的管理。
  (二)客户知识管理理论。1997年美国学者韦兰与科尔首次完整提出了客户知识管理(简称CKM)。CKM是一种管理策略,它使得企业组织、工作流程、技术支持和客户服务以客户为中心来协调和统一与客户的交互行动,从而达到获取、发展、保留价值客户,挖掘潜在客户,提升客户满意度和忠诚度,最终使客户长期价值最大化,为企业增加盈利。作为解决方案,CKM集合了当今最新的信息技术,包括Internet和电子商务、多媒体技术、数据仓库和数据挖掘、专家系统和人工智能、呼叫中心以及相应的硬件环境。
  (三)基于WEB挖掘的知识采集。知识采集作为一个外来词,又名知识获取、知识抽取。本文采用知识采集,主要是为了进一步突出在这个过程中对知识的收集和分类。知识采集也有自己的生命周期。从早期的直接从原始资料(人类专家和书面材料)中采集知识,到中期的从知识素材中提炼规律性知识,再到后期的通过实践检验和修正知识,经历过无数次周而复始的循环。客户知识采集过程体系应包括三项基本功能:(1)数据或信息采集功能;(2)信息到知识的转化功能;(3)知识分类功能。
  企业关注客户服务,采集经销商和最终消费者对产品提出的各类问题及意见,这些信息和知识很大一部分存在于分布在全国各地经销商的网站中,知识采集者不可能一一登录网站查看。因此,需要设计面向WEB页面的知识采集方法,实现自动获取。
  (四)WEB文本挖掘方法。在WEB文本挖掘中,文本的特征表示挖掘工作的基础,而文本分类和聚类是两种最重要、最基本的挖掘方法。
  矢量空间模型(VSM)是近年来应用较多且效果较好的方法之一。在该模型中,文档空间被看作是由一组正交词条矢量所形成的矢量空间,每个文档d表示其中的一个范化特征矢量:
  V(d)=(t1,w1(d);…;ti,wi(d);…;tn,w(d))
  其中ti为词条项,wi(d)为ti在d中的权值。可以将d中出现的所有单词作为ti,也可以要求ti是d中出现的所有短语,从而提高内容特征表示的准确性。
  wi(d)一般被定义为ti在d中出现频率tfi (d)的函数,即:
  wi(d )=?鬃(tfi(d)) (1)
  式中常用的?鬃有:
  布尔函数——?鬃=1,tf■(d)≧1
0,tf■(d)=0
  平方根函数——?鬃=■
  对象函数——?鬃=log(tfi(d)+1)
  TFIDF函数——?鬃=tfi(d)×log[N/ni]
  其中,N为所有文档的数目,ni为含有词条ti的文档数目。
  文本分类是一种典型的有教师机器学习问题,一般分为训练和分类两个阶段,具体过程如下。
  1、训练阶段:①定义类别集合C={c1,…,ci,…,cn},这些类别可以是层次式的或并列式的;②给出文档集合S={s1,…,sj,…,sn},每个训练文档sj,标上类别标识cj;③统计S中所有文档的特征矢量V(sj),确定代表C中每个类别的特征矢量V(cj)。
  2、分类阶段:①对于测试文档集合T={d1,…,dk,…dt}中的每个待分类文档dk,计算其特征矢量V(dk)与每个V(ci)之间的相似度sim(dk,ci);②选取相似度最大的一个类别argmaxci∈sim(dk,ci)作为dk的类别。只要dk与这些类别之间的相似度超过某个预定的阈值,就可以为dk指定多个类别。如果dk与所有类别的相似度均低于闽值,那么通常将该文档放在一边,由用户来做最终决定。在计算sim(dk,ci)时,最简单的方法是仅考虑两个特征矢量中所包含的词条的重叠程度,即:
  sim(dk,ci)=n∩(dk,ci)/n∪(dk,ci) (2)
  其中,n∩(dk,ci)是V(dk)和V(ci)具有的相同词条数目,n∪(dk,ci)是V(dk)和V(ci)具有的所有词条数目。最常用的方法是考虑两个特征矢量之间的夹角正弦:
  sim(dk,ci)={V(dk)-V(ci)}/{V(dk)×V(ci)} (3)
  文本聚类是一种典型的无教师机器学习问题。对于给定的文档集合D={d1,…,dk,…,…dn},层次凝聚法的具体过程如下:(1)将D中的每个文档试看作是一个具有单个成员的簇ck={dk},这些簇构成了D的一个聚类c={c1,…,ci,…,…,cn};(2)计算C中每对簇(ci,cj)之间的相似度sim(ci,cj);(3)选取具有最大相似度的簇对arg maxsim(ci,cj)∈sim(ci,cj),并将ci、cj合并为一个新的簇c=ci∪cj,从而构成了D的一个新的聚类c={c1,…,ci,…,…,cn-1};(4)重复上述步骤,直至C中剩下一个簇为止。
  三、基于WEB文本挖掘的客户知识采集
  (一)文本知识采集。WEB文本知识采集是个复杂的多阶段过程,涉及WEB文本挖掘、知识发现、问题采集等多个方面。学习阶段根据用户的适当参与产生抽取信息的规则。首先确定需要抽取信息的同类WEB页面集,从中选定样本页面,并根据实际的需求和样本页面的具体情况定义模式信息,同时对样本页面进行适当的标记得到样本记录放入知识库中;然后利用这些规则,对同类主题的相似页面进行自动信息抽取,将抽取的记录放入信息库中。
  (二)获取WEB页面路径的正则表达式。正则表达式最早是由数学家斯蒂芬克琳于1956年提出,他是在对自然语言的递增研究成果的基础上提出来的。从那时起,正则表达式经过几个时期的发展,现在的标准已经被国际标准组织(ISO)批准和被Open Group组织认定。它并非一门专用语言,但可用于在一个文件或字符里查找和替代文本的一种标准。目前具有两种标准:基本的正则表达式和扩展的正则表达式。
  本文中使用的正则表达式包括转义字符、限定符和原子零宽度符。使用一系列的特殊字符构建匹配模式。然后,把匹配模式与目标文本、程序输入以及WEB页面的表单输入等目标对象进行比较,根据比较对象中是否包含匹配模式,执行相应的程序。
  所谓样本文档分析,就是把文档输入HTML分析器,按照文档对象模型生成一种树型表示。文档对象模型提供了一个标准的对象集合用以表示HTML或XML文档及其各组成部分之间的关系,并为存取和处理这些对象提供标准编程接口。
  (三)客户知识采集模块功能。客户知识采集模块是系统的核心,主要实现的功能包括:将广大特约销售服务店网站上的客户问题和答案采集到本地,存储到XML格式的文件中。对外:通过制成WEB服务,提供给其他网站调用,方便特约销售服务店和分销商使用;对内:经过分析,获得各类知识,以支持决策。
  四、结束语
  客户知识管理的实现是一项复杂的系统工程,需要科学合理地、全面地获取采集信息,同时需要做大量的研究和实践。知识采集是知识管理的重要组成部分,国外已有应用,但在国内这方面的研究还比较少。本文将文本挖掘、知识采集用于客户知识管理,为进一步实现分布式知识资源的动态配置与管理打下了的基础,以更好地支持客户知识管理的实施。本文在这方面只做了初步的探索,还有待于进一步深入研究。
  (作者单位:北京理工大学管理与经济学院)

主要参考文献:
[1]丁蔚,倪波.知识管理系统与企业电子商务.图书情报知识,2001.3.7.
[2]相国鹏,汪良军.知识视角企业核心竞争力.外国经济管理,2001.3.8.
 
版权所有:合作经济与科技杂志社 备案号:冀ICP备12020543号
您是本站第 25853130 位访客