用户访问模式挖掘及在电子商务中的应用

时间:2020-10-20 20:02:38 电子商务毕业论文 我要投稿

用户访问模式挖掘及在电子商务中的应用

摘要:当今电子商务网站日益增多,网站所提供的功能和服务也越来越丰富,然而也存在不足。比如,提供的服务或信息分布不公道,未能充分考虑到用户的需求;信息的访问路径未能考虑到信息的重要性和普遍关注性等等。本文研究将集中在基于图结构的用户访问模式挖掘及其在电子商务中的应用上,通过对基于Web拓扑结构(图结构)挖掘用户访问模式的数据挖掘,可对已存在的Web站点的结构及站点内的页面进行调整和改善,方便地向浏览模式相似的用户组推荐其感爱好的主题相似的页面,使各类信息和服务以更有效的方式提供给用户。
  关键词:数据挖掘 Web日志挖掘 用户访问模式 Web拓扑结构
  
  一、引言
  
  近几年因特网已经成为一个巨大的、分布广泛的和全球性的信息服务中心,逐渐渗透到人们的日常工作、生活及其它领域,它为用户提供了各种信息。然而,用户面对一堆杂乱无章的信息往往花费了大量的精力却无法找到理想的结果。如何有效得分析用户的需求,帮助用户从因特网的信息海洋中发现他们感爱好的信息和资源,已经成为一项迫切而重要的课题。解决这些题目的一个途径,就是将传统的数据挖掘技术与Web结合起来,进行Web数据挖掘。其中的Web日志挖掘可以把握用户在浏览站点时的行为,并且将挖掘出的用户访问模式应用于网站上,在改善Web站点的结构以及页面间的超链接结构,进步站点的服务质量等方面有重要的意义。
  
  二、Web数据挖掘概述
  
  (一)Web数据挖掘的定义及分类
  Web数据挖掘我们这里采用一个更一般的定义:Web数据挖掘是指从与WWW相关的资源和行为中抽取感爱好的、有用的模式和隐含信息。
  Web信息的多样性决定了Web挖掘任务的多样性,Web数据挖掘总的来说分为内容挖掘、结构挖掘和日志挖掘三类,如图l所示:
  
  (二)Web日志挖掘
  Web日志挖掘也称Web使用挖掘,是指从Web使用数据中抽取用户访问模式的过程。
  一般Web日志挖掘的过程分为以下三步:
  1.数据预备:对Web日志内容进行预处理,删除无用数据,识别用户会话,完善访问路径。
  2.模式识别:采用相应的数据挖掘算法,对预处理之后的数据进行挖掘,天生模式。
  3.模式分析:排除模式识别中没有价值的规则或模式,将有价值的模式提取出来。
  
  三、基于图结构的Web日志挖掘
  
  (一)数据预备
  1.数据源
  目前的Web日志挖掘的数据源主要是Web服务器日志文件,它记录了用户访问站点的数据,每当站点上的页面被访问一次,Web服务器就在日志中增加一条相应的记录。服务器上的日志不仅具体记录了站点访问者的浏览行为,而且汇集了访问同一站点的多个访问者的行为。
  2.数据预处理
  在Web日志挖掘中,主要分析的数据源是服务器日志,但是由于服务器日志记录的数据并不完整,直接在其上进行挖掘非常困难。因此要对日志数据进行预处理主要包括以下步骤:
  数据转换:将原始日志文件导进数据库中。
  数据清理:删除与日志分析目的无关的记录。
  用户识别:将用户和请求的页面相关联。
  会话识别:将用户在一段时间内的请求页面分解成能反映实际浏览习惯的用户会话。
  路径补充:将本地或者代理服务器中缓存而没有被日志记录的.请求页面增加到会话中。
  
  (二)基于图结构的用户访问模式挖掘
  本文中的算法在现有的挖掘关联规则算法的基础上上进行延伸,并且在支持度计算,候选路径的产生和剪除阶段时考虑网站的图结构。这样,在候选集的天生和剪除过程中减少了候选集的数目,可进步发现模式的精确性和效率,并且避免了“交易变质”的题目。首先,分析站点结构,并给出“图”的相关定义和定理。其次,对现有的Web日志挖掘方法进行简单的先容和分析。接着,给出基于图结构的用户访问模式挖掘算法。