Web挖掘技术与电子商务
时间:2015-12-21 00:42:17 所属分类:微电子 浏览量:
[摘要] Web挖掘是一项涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域的综合技术,利用Web挖掘可以提高电子商务系统对消费者的服务能力和竞争优势。文章从四个方面对Web挖掘进行了论述。 [关键词] 数据挖掘Web挖掘电子商务 随着互联网的高速发展和企
[摘要] Web挖掘是一项涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域的综合技术,利用Web挖掘可以提高电子商务系统对消费者的服务能力和竞争优势。文章从四个方面对Web挖掘进行了论述。
[关键词] 数据挖掘Web挖掘电子商务
随着互联网的高速发展和企业、个人上网的普及,电子商务成为未来商务交易的主要运营方式,电子商务是运用互联网技术进行的经济贸易活动,是一种基于因特网、以交易双方为主体、以银行电子支付和结算为手段、以客户数据为依托的全新商务模式,其内容包括广告、交易、支付、服务等活动。商家与其合作伙伴、客户通过计算机网络进行商务活动,可以拉近企业与客户的距离,缩短生产时间,降低流通成本,提高产品质量,为生产者和消费者提供更多的信息,扩大客户的选择,提高企业的竞争力。
利用网络提供优质的产品及优良的服务是今天电子商务发展的核心与重点。如何在电子商务活动中通过技术手段来与顾客沟通,了解其消费偏好、习惯以及潜在的消费意识,进而设计出满足不同客户群体的个性化网站,以完成对每一个客户的优质个性化服务,这些已成为电子商务活动中迫切需要解决的问题。利用Web数据挖掘技术就可以有效解决以上问题。
一、Web挖掘的概念
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是从人工智能和机器学习中发展起来的,它是一种新的信息处理技术,其主要特点是对大量的数据进行抽取、转换、分析和其他模型化处理,从中提取人们感兴趣的知识。数据挖掘的对象可以是数据库,也可以是文件系统,还可以是其他任何组织在一起的数据集合。
Web挖掘是从数据挖掘发展而来,Web挖掘是从Web文档和Web活动中发现、抽取感兴趣的潜在的有用模式和隐藏的信息,它是一项综合技术,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域。
虽然Web挖掘由数据挖掘发展而来,但其与数据挖掘相比有独特之处。传统数据挖掘的对象局限于数据库中的结构化数据;而Web挖掘的对象是大量、异质、分布的Web文档,其是半结构化或无结构的且缺乏机器可理解的语义。
二、Web挖掘的类型
根据控制对象的不同,Web挖掘可以分为三类:Web内容挖掘、Web结构挖掘、Web数据的使用挖掘。
1.Web内容挖掘
Web内容挖掘,就是从Web页面上的文件内容及其描述信息中获取潜在的、有价值的知识和模式的过程。Web内容挖掘包括文本文件的挖掘和多媒体文档的挖掘。
2.Web结构挖掘
Web结构挖掘,是从Internet的整体结构和网页的相互链接以及网页的本身结构中发现知识的过程。
在整个Web空间,有用的知识不仅包含在页面的内容之中,而且也包含在页面的结构中。Web结构挖掘主要针对的就是页面的超链接结构,如果有较多的超链接指向它,那么该页面就是重要的,发现的这种知识可以用来改进搜索路径等。
3.Web数据的使用挖掘
Web数据的使用挖掘,是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者和顾客的行为模式。
尽管WWW作为一个信息资源是繁杂、异质和庞大的,然而从局部来说,在每一个提供信息资源的服务器上都有一个结构化的记录集,即Web访问日志。每当有获取资源的请求到来时,Web服务器都将记录和积累这些关于用户交互作用的数据。分析不同的Web站点的Web访问日志可以帮助人们理解用户的行为和Web的结构,从而提高网站的实际工作效率。
三、Web数据的使用挖掘过程
Web使用挖掘遵循传统数据挖掘的研究思路,挖掘过程分为4个阶段:源数据收集、数据预处理、模式发现和模式分析。
1.源数据收集
在Web数据的使用挖掘中,数据最直接的来源是Web服务器上的Web日志文件。Web日志文件非常明确地记录了访问者的浏览行为,Web日志文件包括服务器log、代理log和客户端log。
2.数据预处理
收集到的实际数据一般都具有不完全性、冗余性和模糊性,要想更有效地挖掘出知识,就必须对收集到的数据进行预处理,为挖掘提供准确、简洁的数据。数据的预处理包括数据清理、用户识别、用户会话识别、访问路径补充和事务识别等步骤。
(1)数据清洗的主要任务就是删除Web日志中与数据不相关的冗余项,缩小被挖掘数据对象的范围。
(2)在数据净化后就必须确定单一的用户,用户识别的目的就是对用户唯一性的识别。用户识别可以借助于cookie技术、用户登记技术和启发性规则来实现。
(3)在用户识别的基础上须进行用户会话识别,其目的是将每个用户的访问信息划分成若干个独立的会话进程,最简单的方法是采用超时估计的办法,即当对页面之间的请求时间间隔超出所给定值时,即可以认为用户已经开始了一次新的会话。
(4)因为页面缓存技术和代理服务器的广泛使用,使得Web服务器访问日志中所记录的可能不是用户完整的访问路径。不完整的访问日志不能准确地反映用户的访问模式,所以有必要进行访问路径的补充。进行路径补充可以利用Web站点的拓扑结构,对页面进行分析。
(5)事务识别是建立在用户会话识别的基础上的,其目的是依据数据挖掘任务的需求将事务做分割或合并处理,使其适合于数据挖掘需求的分析。
3.模式发现
模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。其方法有分类分析、关联规则发现、序列模式发现、聚类分析和依赖性建模等。
(1)分类分析是将数据项按照预先定义的类别进行划分,其主要是将用户配置文件归属到既定的用户类别。得到分类后,就可以针对这一类客户的特点展开商务活动,提供有针对性的个性化的信息服务。
(2)关联规则发现主要用于从Web日志数据库的访问项中挖掘出相关的规则,通过分析用户访问网页间的潜在联系而发现隐藏在数据间的相互关系。
(3)序列模式发现就是要挖掘出交易集之间有时间序列关系的模式。在网站服务器日志里,用户的访问是一个间断的时间序列,这些序列反映出用户的行为,序列模式挖掘侧重点在于分析数据间的前后或因果关系。序列模式发现便于电子商务的组织者预测客户的访问模式,有助于开展有针对性的服务。
(4)聚类分析是把具有相似特征的用户或数据项归类,用于把有相似特性的用户、数据项集合到一起,它可以帮助进行市场决策。
(5)依赖性建模的目标是开发出一种能表达出Web领域中各种变量之间显著依赖性的模型。其不仅能为分析用户行为提供理论框架,还具有预测Web资源消耗的潜力。
4.模式分析
模式分析主要是为了从模式发现算法找到的模式集合中筛选出有兴趣的模式。经过模式分析得到有价值的模式,即我们感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者。
四、Web挖掘在电子商务中的应用
在日益激烈的电子商务买方市场竞争中,任何与消费者行为有关的信息对商家来说都是非常宝贵的。电子商务一个主要的挑战是需要了解到顾客尽可能多的爱好、价值取向,以保证在电子商务时代的竞争力。Web挖掘可用来发现不明显的、有潜在价值的数据,其可以提高电子商务系统对消费者的服务能力和竞争优势。
1.个性化服务
所谓个性化服务,就是在用户浏览Web站点时,尽可能的迎合每个用户的浏览兴趣并且不断调整白己来适应用户浏览兴趣的变化,使得每个用户都有是该Web站点唯一用户的感觉。
而要做到个性化服务,首先得获取和收集服务对象的信息,掌握顾客的消费习惯、爱好、消费心理等,然后才能有针对性地提供个性化服务。要取得消费者的消费行为模式,传统营销方式是十分困难的,但利用Web挖掘技术则可以做到。
2.完善电子商务网站设计
网站的吸引力取决于其内容和组织结构的合理设计,Web挖掘可以提供用户行为的详细情况,从而能够为网站设计者改进网站的设计提供决策依据。
3.广告效益评价
利用Web挖掘对大量消费行为模式进行分析,可精确地评价各种广告手段的效益,并可组合设计出最佳的商品宣传组合方案,帮助商品在销售过程找到合适的出路。
4.辅助选择产品类型
电子商务网站通过长期运营,通过对由Web挖掘所存入数据仓库的大量消费行为模式的分析、组合和推理,得出市场对产品种类的需求和销售情况,进而由产品的生产决策者根据相关因素决定生产产品的种类和数量。因而Web挖掘可以用于辅助企业开发出适销对路的产品。
转载请注明来自:http://www.zazhifabiao.com/lunwen/dzxx/wdz/34515.html