Web结构挖掘在电子商务网站结构优化中的应用

时间:2023-03-21 08:21:49 电子商务毕业论文 我要投稿
  • 相关推荐

Web结构挖掘在电子商务网站结构优化中的应用

[摘要] 本文概述了Web结构挖掘技术并描述了其常见算法。针对Web结构挖掘算法,提出了进步网站结构公道性的对策。使用户通过优化网站结构来获取更多有效客户,扩大网站影响力,从而提升网站价值。
  [关键词] Web结构挖掘 网站结构 超链接 PageRank HITS
  
  一、前言
  网站的推广对电子商务网站而言尤为重要。网站在常用搜索引擎上的排名会直接影响到网站的推广和网站的运营效果。因网站的结构不同,即使内容相同,外观相同的网站,在常用搜索引擎中的排名也会不同。网站结构是否公道会影响到搜索引擎在网站页面上抓取的结果,从而影响到网站的排名。在实际应用中,常使用PR(Page Rank)值来判定网站结构是否公道, PR值越高说明网站结构越公道,搜索引擎就会收录该网站更多的页面,为网站带来更多的流量。因此,进步网站结构的公道性,获取更高的PR值就显得尤为重要。只有用网站结构优化的理念往设计网站,才有可能设计一个成功的网站。基于Web的数据挖掘技术中的Web结构挖掘( Web Structure Mining)则是判定网站结构是否公道的一个有效方法。使用Web结构挖掘方法可以进步网站结构的公道性,增加网站的PR值,扩大网站的流量。
  二、Web结构挖掘的概念
  基于Web的数据挖掘是指使用数据挖掘技术在Web数据中发现潜伏的、有用的模式或信息。基于Web的数据挖掘一般可以分为三类:Web内容挖掘(Web Content Mining)、 Web结构挖掘( Web Structure Mining)及 Web 用法挖掘(Web Usage Mining)。其中Web 结构挖掘是对Web 的链接结构进行分析, 以对超链接分析来评估Web 资源, 从而发现有用模式, 进步搜索质量及进步网站被抓取的可能性。Web结构包括不同网页之间的超链接结构和网页内部用HTML,XML表示的树形结构,以及文档URL中的目录路径结构等。Web页面之间的链接结构中包含了很多有用的信息,Web结构挖掘是从Web结构中推导知识,即对Web文档的结构进行挖掘,挖掘Web潜伏的链接结构模式,通过分析网页间链接数目及对象来建立网站自身的链接结构模式。
  Web结构挖掘的基本思想是将Web看成是一个巨大的以Web页面为节点、页面之间超链接为有向边所构成的一个网状结构的有向图,然后利用图论对Web的拓扑结构进行分析,从而确定其网站结构的公道性。
  Web结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。HITS( Hypertext Induced Topic Search)和PageRank分别是查询相关算法和查询无关算法的代表。这些算法已经在实际的系统中实现和使用,并且取得了良好的效果。
  三、Web结构挖掘算法描述
  基于超链接分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法,其他一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。对超链接进行挖掘的两个典型的算法是:PageRank算法及HITS算法。
  1.PageRank算法
  PageRank算法是Web超链接结构分析中最成功的代表之一,该算法是评价网页权威性的一种重要工具。Google、Yahoo、Baidu等都是基于该算法的搜索引擎。PageRank算法基于2个条件,一是若网页A被多次引用,则A重要;若 A被重要网页B引用,则A重要;B的重要性被均匀的传递到它所引用的网页。二是若用户访问网页A,然后跟随A的导出链接向后浏览网页B而不退回A,那么浏览B的概率就是B的PageRank值。
  PageRank在具体实现时会忽略掉页面的文本和其他内容,只考虑页面间的超链接。但由于网页的链接范围领域很广,链接的页面价值参差不齐,所以仅以简单的链接数目来判定网页的重要性是不真实客观的,所以其他研究者对PageRank算法提出了改进。改进的PageRank算法不仅考虑了网页引用数目,还根据页面的导进链接的权重来计算页面的重要性。页面导进链接的权重由链接提供页面的重要性所决定,即当前页面的重要性主要由其他页面的重要性来决定,PageRank算法就是从链接结构中获取网页的重要性。
  简单PageRank算法描述如下:
  PR(A) = (1-d) / N d (PR(T1)/C(T1) ... PR(Tn)/C(Tn))
  其中:PR(A):页面A的PR值,
  PR(Ti):页面Ti的PR值,页面Ti链向页面A
  C(Ti):页面Ti链出的链接数目
  d:阻尼系数,取值在0-1之间
  N:互联网上所有网页的数目
  由此可见,PageRank算法不以站点排序,页面PR值由独立的页面决定。页面的PR值由链向它的页面的PR值决定,但每个链进页面的贡献值是不同的。假如Ti页面中链出越多,它对当前页面A的贡献就越小。A的链进页面越多,其PR值也越高。阻尼系数的使用,减少了其他页面对当前页面A的排序贡献。所有页面的PR值形成了一个概率分布,所有页面的PR值之和为1。
  简单PageRank算法也可以用矩阵来描述,设T为一个矩阵,T的行和列对应页面集的页面。PageRank的算法是将T的行和列互换后得到的矩阵A。为了将各列矢量的总和变成1(全概率),把各个列矢量除以各自的链接数(非零要素数), 即假如网页i有指向网页j的一个链接,则Aij=1/Ni,否则Aij=0,就形成了一个 “推移概率行列”,各个行矢量表示页面间的推移概率。由T颠倒得到A的理由是,PageRank 并非重视“链接到多少地方”而是重视“被多少地方链接”。PR值的计算,就是求属于这个推移概率行列最大特性值的固有矢量。
  2.HITS算法
  HITS算法综合权衡了查询内容与页面链接的关系。HITS算法以为网页的重要性依靠于用户提出的查询请求。HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。HITS算法以为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。
  HITS算法是一个“迭代—收敛”的过程,在获取了一个与查询主题相关的返回页面根集合(Root Set)S后,根据S中的页面的链接关系再向集合S中扩充与S中页面相链接的页面, 将S扩展成一个更大的基础集合(Base Set)T。可将T看作一个二分有向图SG=(V1,V2,E),其中:顶点集Vl:T中的Hub网页集;顶点集V2:T中的Authority网页集;边集E: Vl中的网页到V2中的网页的超链接。对V1中的任一个顶点v,用h(v)表示网页v的Hub值,对V2中的顶点u,用a(u)表示网页的Authority值。开始时h(v)=a(u)=1,对u执行I操纵修改它的a(u),对v执行O操纵修改它的h(v),然后规范化a(u),h(v),如此不断的重复计算下面的操纵I,O,直到a(u),h(v)收敛。
  I 操纵:(1)
  O操纵:(2)
  每次迭代后需要对a(u),h(v)进行规范化处理:
  
  式(1)反映了若一个网页由很多好的Hub指向,则其权威值会相应增加(即权威值增加为所有指向它的网页的现有Hub值之和)。式(2)反映了若一个网页指向很多好的权威页,则Hub值也会相应增加(即Hub值增加为该网页链接的所有网页的权威值之和)。HITS算法输出一组具有较大Hub值的网页和具有较大权威值的网页。
  HITS算法存在的主要题目:
  (1)实际应用中,由S天生T的时间开销很昂贵;
  (2)站点内部网页在权威度数值上可相互加强;
  (3)网页中一些无关的链接影响A,H值的计算;
  (4)存在与查询主题无关的网页即主题漂移现象。

【Web结构挖掘在电子商务网站结构优化中的应用】相关文章:

金融贸易结构优化研讨05-30

汉字结构应用下包装艺术论文04-23

论企业组织结构分类中的逻辑问题05-28

谈电子商务企业组织结构设计06-13

学位论文的结构要件04-26

结构方面的毛病05-08

浅谈德国的教育结构06-19

对水厂建设中关于水池结构设计的探讨08-24

网络经济数据挖掘在工商管理中的应用论文07-29

论文的结构和排版格式07-25