数据挖掘技术在电子商务领域的应用-

首页

期刊简介

新版网站改版了，欢迎提出建议。

访客留言

邮箱：
留言：	留言内容不能

联系我们

合作经济与科技杂志社

地址：石家庄市建设南大街21号

邮编：050011

电话：0311-86049879

友情链接

·中国知网	·万方数据
·北京超星	·重庆维普

经济/产业

信息类别	首页/本刊文章/第259期/市场营销/正文	发布时间	2004/11/19
作者	-	浏览次数	2824 次

数据挖掘技术在电子商务领域的应用

  提要　Internet目前是一个巨大、分布广泛、全球性的信息资源储备库，它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务。Web包含了丰富和动态的超链接信息，以及Web页面的访问和使用信息，这为数据挖掘提供了丰富的资源。本文对Web挖掘最新技术及发展方向做了全面分析，包括Web结构挖掘、多层次Web数据仓库方法以及Web日志挖掘等；另外对于个性化电子商务网站中难以发现用户行为特征问题，给出了Web页面聚类算法。利用Web技术可有效挖掘用户个性特征，从而指导电子商务网站资源的组织和分配，为商务型网站的投资者和建立者提供正确的盈利导向。
　　电子商务是一种借助于计算机网络技术，通过电子交易手段来完成金融、物资、服务和信息等价值交换，快速而有效地从事各种商务活动的新方法。电子商务的应用有利于满足企业、供应商和消费者提高产品质量和服务质量、加快服务速度、降低营销成本等方面的需求，帮助企业和个人通过网络查询和检索信息来支持决策。
  在电子商务的模式下，企业可以通过架设网站来达到展示企业形象，实现与客户及合作伙伴之间的及时无缝通信，降低企业的综合成本，根据客户的反应及时准确地调整产品的销售策略，最终提高企业的核心竞争力的初衷。新型商务模式下的营销自然成为企业营销策略的重要一环，作为大大降低营销成本手段的网络营销概念在网络经济的浪潮下应运而生，展现出数字化、电子化、信息化的大优势、高效益、好前景。
  无论是B2B、B2C还是B2G电子商务模式，商品的采购者都需要通过Web方式与商品的供应商及其合作者之间建立信息流的交互，那么，一方面通过Web方式购买者如何主动、方便、快捷的获得期望主题的信息来对购买行为提供科学经济的决策支持？另一方面供应商及与之构成广域价值链上的合作伙伴们如何通过他们的集成信息系统，运用知识发现技术把访问者、网上购买者的访问数据从潜在的、隐含的、事先不知的状态，经过提取、洗涤、加工变为潜力巨大的价值信息，从而实现网络营销的目的呢？
  上述问题的解答必须应用传统的数据挖掘理论知识和技术方法去实现。这种如何把Web上的数据转换生成为有趣的知识模式的需求，激发了数据挖掘技术在Web上的应用，同时这种挑战性的工作也吸引了众多人的关注，成为数据挖掘领略的活跃主题，其中，此项技术在电子商务中的应用已经引起了人们的极大兴趣。
  一、Web挖掘的分类
  Web挖掘是从WWW上抽取知识的过程。它是从与WWW相关的资源和行为中抽取感兴趣的有用的模式和隐含信息，也是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域。Web挖掘一般可分为三个部分。
  1、Web内容挖掘。随着WWW上信息的迅猛增长，许多只支持由关键词和超级链接所构成的搜索引擎返回的结果中有许多无用及无关的信息。这就需要开发更为有效的技术来支持Web内容挖掘。Web内容挖掘有两种策略：直接挖掘文档内容和在其他检索工具搜索的基础上进行改进。
  按实现方法又分为基于代理的方法和数据库方法。其中Web内容挖掘又可以细化为直接挖掘文档内容和对搜索引擎查询结果的进一步处理，前者采用这种策略比较杰出的Web查询语言有WebOQL，Ahoy等。WebOQL是一个用于Web页重构的查询语言，利用Web文档的图树表示形式，可从在线的文档站点或导游指南中获取信息。而Ahoy则利用像搜索引擎一类的互联网服务来获取与个人有关的服务，利用试探法识别文档中显示该文档作为个人主页的句法特征。后者对搜索引擎返回的结果进行挖掘可提供给用户更为准确的查询结果。如WebSQL系统访问搜索引擎获取文档，并从文档内部采集URL标题、内容类型、内容长度、修改日期及链接等信息。而类SQL声明式语言则提出了从搜索结果中获取相关文档的能力。
  2、Web结构挖掘。Web结构挖掘是从WWW上的组织结构和链接关系中推导知识。由于超文本文档间的关联关系使得WWW不仅仅可以揭示文档中所包含的信息，同时也可以揭示文档间的关联关系所代表的信息。利用这些信息可以对页面进行排序，发现重要的页面。挖掘Web结构的目的是发现页面的结构和Web结构，在此基础上对页面进行分类和聚类，从而找到权威页面。Page2Rank方法就是利用文档间链接信息来查找相关的Web页。
  3、Web使用记录的挖掘。Web使用记录挖掘的主要目标是从Web的访问记录中抽取感兴趣的模式。WWW中的每个服务器都保留了访问日志(Web access log)，记录了关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为，从而改进站点的结构，或为用户提供个性化的服务。这方面的研究主要有两个方向：一般的访问模式追踪和个性化的使用记录追踪。一般的访问模式追踪通过分析使用记录来了解用户的访问模式和倾向，以改进站点的组织结构。而个性化的使用记录追踪则倾向于分析单个用户的偏好，其目的是根据不同用户的访问模式，为每个用户提供定制的站点。
  二、电子商务中的Web挖掘
　在Internet电子商务中，客户浏览信息被Web服务器自动收集并保存在访问日志、引用日志和代理日志中。这些日志数据信息被组合应用到计算机并行处理、神经元网络、模型化算法和其他信息处理技术手段，进行分析加工，从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。同时有效地对这些Web日志进行定量分析，揭示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等，不但可为优化Web站点拓扑结构提供参考，而且还可为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。
  1、电子商务中Web挖掘的方法。预处理主要由两部分构成：数据清洗(data cleaning)和事务识别(transaction identification)。包括对Web日志进行清洗、过滤和转换以及无关记录的剔除，判断是否有重要的访问没有被记录，并从中抽取感兴趣的数据；并将URL、资源的类型、大小、请求的时间、在资源上停留的时间、请求者的Internet域名、用户、服务器状态作为数据cube的维数变量；再将对模块、页面和文件请求次数，来自不同Internet域请求次数、事件、会话、带宽、错误次数、不同浏览器种类、用户所在组织作为度量变量建立data cube；而将文件、图像脚本及多媒体等其他文件转换成可用于Web使用挖掘的数据格式，从而可将数据挖掘技术用于Web流量分析、典型的事件序列分析和用户行为模式分析及事务分析。
  用户访问模式的发现，可采用统计学(statistics)、模式识别(model identification)、人工智能(AI)、数据挖掘(data mining)等领域的成熟技术在Web使用记录中挖掘知识。这些从其他领域移植到Web挖掘领域的技术，仍需针对Web挖掘领域的特点做出相应的修改和完善才能进行成功移植。在经过数据预处理阶段后，即可根据不同的需求选择模式发现技术，如统计分析、关联规则、时序模式、路径分析(path analysis)及聚类、分类技术。其中统计分析通过分析会话文件可对网页视图、浏览时间和导航路径长度给出描述性的统计分析。该分析有助于改进系统性能，增强系统安全性，便于站点修改并可提供决策支持。路径分析可用于发现Web站点中最经常被访问的路径，从而可调整站点结构。基于Web日志的关联规则挖掘则可发现用户与站点各页面的访问关系，可找出在某次服务器会话中经常出现的一些相关网页，即支持度超过预设阈值的一组网页。聚类则多指客户群体聚类和Web网页聚类。客户群体聚类指将具有相似浏览模式的用户分在一组，从而方便电子商务网站为用户提供个性化服务，而Web页面聚类则提供有针对性的网络服务应用。时序模式发现是根据一段时间的Web使用记录分析是否存在一定趋势，以预测未来的访问模式。
  Web使用挖掘中的模式分析，主要是为了在模式发现算法找到的模式集合中发现有趣模式。开发各种Web分析技术和工具，可辅助分析人员加深理解并使各种挖掘方法得到的模式获得充分利用。如Webwiz(pitkow)系统可将WWW的访问模式可视化；Webminer则采用类SQL 语言的知识查询机制；另外也可以利用存储Web使用数据的数据仓库，采用OLAP方法发现数据中的特定模式。
  三、电子商务中利用Web日志的聚类算法
　基于模糊理论的Web页面聚类算法与客户群体聚类算法的模糊聚类定义相同，客户访问情况可用URL(Uj)表示。有：Suj={(Ci，fSuj(Ci))|Ci∈C}，其中fSuj(Ci)→[0，1]是客户Ci和URL(Uj)间的关联度：

式中m为客户的数量，hits(Ci)表示客户Ci访问URL(Uj)的次数。利用Suj和模糊理论中的相似度度量Sfij定义建立模糊相似矩阵，再根据相似类[Xi]R的定义构造相似类，合并相似类中的公共元素得到的等价类即为相关Web页面。
  Web页面聚类的Hamming距离算法。同Hamming距离客户群体聚类算法，对于Mm×n关联矩阵，若有任意M[i,j]>0，可先令M[i,j]=1，然后计算行向量间Hamming距离，从而建立行向量间的距离矩阵MHdm×m。在对称矩阵MHdm×m中，di,j∈MHdm×m(1≤i≤n,i≤j≤n)表示第i个行向量和第j个行向量间的Hamming距离。对于任意的di,j∈MHdm×n(1≤i≤n,i≤j≤n)，若di,j<∧(∧为阈值)则将第i个URL和所有满足该条件的第j个URL划分为一类。若考虑到客户对某一URL的访问频率，则需要对聚类结果加以确认。若URLC和K之间连接强度CO(C，K)小于事先确定的阈值，则将该URLC剔除出类k，并与其他被剔除的C划分为另一个类k'。
  小结
  随着计算机、网络、通信技术的快速发展，信息化已经在全球范围内成为新的经济增长点，为了在全球经济一体化及加入WTO的宏观环境下，进一步密切国际间经济合作，为企业提供展现自身产品的舞台，应对严酷激烈的竞争，发挥电子商务超越时间、空间限制的优势，我国的商务网站顺应时代发展的趋势如雨后春笋般的涌现出来。但是我们也看到Web上的资源是巨大的、异构的，无论网站的经营者还是上网的用户都无法从繁杂的数据中快速地提炼出知识，从而转化成经济效益或是实现最大化商品效用。Web挖掘很好地解决了从数据到知识转化的问题，为我国的商务网站个性化定制每一个浏览者提供了技术的可行性，并为网站实现经济效益提供了一条发展的新路。(□文/郭　崇)