WEB文本挖掘在客户知识管理中的应用-

首页

期刊简介

新版网站改版了，欢迎提出建议。

访客留言

邮箱：
留言：	留言内容不能

联系我们

合作经济与科技杂志社

地址：石家庄市建设南大街21号

邮编：050011

电话：0311-86049879

友情链接

·中国知网	·万方数据
·北京超星	·重庆维普

经济/产业

信息类别	首页/本刊文章/第375期/管理/制度/正文	发布时间	2009/8/3
作者	□文/景　艳	浏览次数	1008 次

WEB文本挖掘在客户知识管理中的应用

　　提要　本文以客户知识管理需求为出发点，对WEB页面中富有知识资源价值的WEB文本及其挖掘方法进行研究，提出客户知识管理中的WEB文本挖掘采集方法，为进一步实现分布式知识资源的动态配置与管理打下了良好的基础，从而更好地支持客户知识管理实施。
　　关键词：知识管理；客户知识采集；WEB文本挖掘
　　中图分类号：C93　文献标识码：A
　　一、引言
　　随着知识经济的发展，企业基于信息的竞争优势正在向基于知识创造的竞争优势发展，知识作为一种稀缺资源成为经济发展的核心要素。企业的知识资产不仅可以增加企业的市场竞争力，不断充实企业知识资本，累积企业实力，还能更好的支持企业管理。因此，知识管理作为企业管理的新模式悄然兴起，实施知识管理成为企业的重要战略。
　　在客户关系管理中，传统的方法是采用客户服务模式处理客户的信息和知识，其核心是建立基于售后服务的客户知识采集、反馈体系。本文以客户知识采集需求为基础，以WEB文本中的客户知识为采集目标，以WEB文本挖掘的相关方法与技术为手段，创建了基于WEB文本挖掘客户知识采集方法，具有很广的研究和应用价值。
　　二、基于WEB文本挖掘的客户知识管理方法
　　（一）知识管理的概念。世界知识管理之父Sveiby博士1986年在世界上首次提出知识管理这个名词。知识管理的概念可从狭义和广义的角度理解：狭义的知识管理主要是针对知识本身的管理，包括对知识的创造、获取、加工、存储、传播和应用的管理；广义的知识管理不仅包括对知识进行管理，而且包括与知识有关的资源和无形资产的管理，涉及知识组织、知识设施、知识资产、知识活动、知识人员的全方位和全过程的管理。
　　（二）客户知识管理理论。1997年美国学者韦兰与科尔首次完整提出了客户知识管理（简称CKM）。CKM是一种管理策略，它使得企业组织、工作流程、技术支持和客户服务以客户为中心来协调和统一与客户的交互行动，从而达到获取、发展、保留价值客户，挖掘潜在客户，提升客户满意度和忠诚度，最终使客户长期价值最大化，为企业增加盈利。作为解决方案，CKM集合了当今最新的信息技术，包括Internet和电子商务、多媒体技术、数据仓库和数据挖掘、专家系统和人工智能、呼叫中心以及相应的硬件环境。
　　（三）基于WEB挖掘的知识采集。知识采集作为一个外来词，又名知识获取、知识抽取。本文采用知识采集，主要是为了进一步突出在这个过程中对知识的收集和分类。知识采集也有自己的生命周期。从早期的直接从原始资料（人类专家和书面材料）中采集知识，到中期的从知识素材中提炼规律性知识，再到后期的通过实践检验和修正知识，经历过无数次周而复始的循环。客户知识采集过程体系应包括三项基本功能：（1）数据或信息采集功能；（2）信息到知识的转化功能；（3）知识分类功能。
　　企业关注客户服务，采集经销商和最终消费者对产品提出的各类问题及意见，这些信息和知识很大一部分存在于分布在全国各地经销商的网站中，知识采集者不可能一一登录网站查看。因此，需要设计面向WEB页面的知识采集方法，实现自动获取。
　　（四）WEB文本挖掘方法。在WEB文本挖掘中，文本的特征表示挖掘工作的基础，而文本分类和聚类是两种最重要、最基本的挖掘方法。
　　矢量空间模型（VSM）是近年来应用较多且效果较好的方法之一。在该模型中，文档空间被看作是由一组正交词条矢量所形成的矢量空间，每个文档d表示其中的一个范化特征矢量：
　　V（d）=（t1，w1（d）；…；ti，wi（d）；…；tn，w（d））
　　其中ti为词条项，wi（d）为ti在d中的权值。可以将d中出现的所有单词作为ti，也可以要求ti是d中出现的所有短语，从而提高内容特征表示的准确性。
　　wi（d）一般被定义为ti在d中出现频率tfi （d）的函数，即：
　　wi（d ）=?鬃（tfi（d））　（1）
　　式中常用的?鬃有：
　　布尔函数——?鬃=1，tf■（d）≧1
0，tf■（d）=0
　　平方根函数——?鬃=■
　　对象函数——?鬃=log（tfi（d）＋1）
　　TFIDF函数——?鬃=tfi（d）×log［N/ni］
　　其中，N为所有文档的数目，ni为含有词条ti的文档数目。
　　文本分类是一种典型的有教师机器学习问题，一般分为训练和分类两个阶段，具体过程如下。
　　1、训练阶段：①定义类别集合C=｛c1，…，ci，…，cn｝，这些类别可以是层次式的或并列式的；②给出文档集合S=｛s1，…，sj，…，sn｝，每个训练文档sj，标上类别标识cj；③统计S中所有文档的特征矢量V（sj），确定代表C中每个类别的特征矢量V（cj）。
　　2、分类阶段：①对于测试文档集合T=｛d1，…，dk，…dt｝中的每个待分类文档dk，计算其特征矢量V（dk）与每个V（ci）之间的相似度sim（dk，ci）；②选取相似度最大的一个类别argmaxci∈sim（dk，ci）作为dk的类别。只要dk与这些类别之间的相似度超过某个预定的阈值，就可以为dk指定多个类别。如果dk与所有类别的相似度均低于闽值，那么通常将该文档放在一边，由用户来做最终决定。在计算sim（dk，ci）时，最简单的方法是仅考虑两个特征矢量中所包含的词条的重叠程度，即：
　　sim（dk，ci）=n∩（dk，ci）/n∪（dk，ci）　（2）
　　其中，n∩（dk，ci）是V（dk）和V（ci）具有的相同词条数目，n∪（dk，ci）是V（dk）和V（ci）具有的所有词条数目。最常用的方法是考虑两个特征矢量之间的夹角正弦：
　　sim（dk，ci）=｛V（dk）-V（ci）｝/｛V（dk）×V（ci）｝　（3）
　　文本聚类是一种典型的无教师机器学习问题。对于给定的文档集合D=｛d1，…，dk，…，…dn｝，层次凝聚法的具体过程如下：（1）将D中的每个文档试看作是一个具有单个成员的簇ck=｛dk｝，这些簇构成了D的一个聚类c=｛c1，…，ci，…，…，cn｝；（2）计算C中每对簇（ci，cj）之间的相似度sim（ci，cj）；（3）选取具有最大相似度的簇对arg maxsim（ci，cj）∈sim（ci，cj），并将ci、cj合并为一个新的簇c=ci∪cj，从而构成了D的一个新的聚类c=｛c1，…，ci，…，…，cn-1｝；（4）重复上述步骤，直至C中剩下一个簇为止。
　　三、基于WEB文本挖掘的客户知识采集
　　（一）文本知识采集。WEB文本知识采集是个复杂的多阶段过程，涉及WEB文本挖掘、知识发现、问题采集等多个方面。学习阶段根据用户的适当参与产生抽取信息的规则。首先确定需要抽取信息的同类WEB页面集，从中选定样本页面，并根据实际的需求和样本页面的具体情况定义模式信息，同时对样本页面进行适当的标记得到样本记录放入知识库中；然后利用这些规则，对同类主题的相似页面进行自动信息抽取，将抽取的记录放入信息库中。
　　（二）获取WEB页面路径的正则表达式。正则表达式最早是由数学家斯蒂芬克琳于1956年提出，他是在对自然语言的递增研究成果的基础上提出来的。从那时起，正则表达式经过几个时期的发展，现在的标准已经被国际标准组织（ISO）批准和被Open Group组织认定。它并非一门专用语言，但可用于在一个文件或字符里查找和替代文本的一种标准。目前具有两种标准：基本的正则表达式和扩展的正则表达式。
　　本文中使用的正则表达式包括转义字符、限定符和原子零宽度符。使用一系列的特殊字符构建匹配模式。然后，把匹配模式与目标文本、程序输入以及WEB页面的表单输入等目标对象进行比较，根据比较对象中是否包含匹配模式，执行相应的程序。
　　所谓样本文档分析，就是把文档输入HTML分析器，按照文档对象模型生成一种树型表示。文档对象模型提供了一个标准的对象集合用以表示HTML或XML文档及其各组成部分之间的关系，并为存取和处理这些对象提供标准编程接口。
　　（三）客户知识采集模块功能。客户知识采集模块是系统的核心，主要实现的功能包括：将广大特约销售服务店网站上的客户问题和答案采集到本地，存储到XML格式的文件中。对外：通过制成WEB服务，提供给其他网站调用，方便特约销售服务店和分销商使用；对内：经过分析，获得各类知识，以支持决策。
　　四、结束语
　　客户知识管理的实现是一项复杂的系统工程，需要科学合理地、全面地获取采集信息，同时需要做大量的研究和实践。知识采集是知识管理的重要组成部分，国外已有应用，但在国内这方面的研究还比较少。本文将文本挖掘、知识采集用于客户知识管理，为进一步实现分布式知识资源的动态配置与管理打下了的基础，以更好地支持客户知识管理的实施。本文在这方面只做了初步的探索，还有待于进一步深入研究。
　　（作者单位：北京理工大学管理与经济学院）

主要参考文献：
[1]丁蔚，倪波.知识管理系统与企业电子商务.图书情报知识，2001.3.7.
[2]相国鹏，汪良军.知识视角企业核心竞争力.外国经济管理，2001.3.8.