个性化电子商务系统中的自适应过滤算法探究

时间：2020-10-16 13:02:49 电子商务毕业论文我要投稿

[摘要]电子商务的飞速发展在方便顾客的同时也带来了一个题目：产品过多致使顾客不能有效选择其所需产品。为满足顾客的个性化电子商务需求，文章提出一个新的基于向量空间模型的自适应过滤算法。该算法首先采用特征向量和伪反馈并借助练习算法来选取初始过滤轮廓和闽值，然后运用用户反馈通过过滤算法对轮廓和阈值进行修正。该算法具备两个优点：一是能够进行自我学习来进步精确度；二是过滤过程无需大量的初始文本。将其用于电子商务并进行测试，测试结果证实它是有效的。
　　[关键词]个性化电子商务；自适应过滤算法；闽值优化算法；精确度；特征选择
　　
　　
　　电子商务伴随着互联网飞速发展，同时也为企业和顾客带来了一个新局面：企业发现竞争日益激烈，生存日益艰难；顾客发现产品日益增多，但信息处理负担日益加重，选择自己所需的产品日益困难。因此，亟需新的市场战略，如一对一的销售、客户关系治理等。学术界和实践者已夸大了这一紧迫性。而个性化推荐，即为每个客户推荐一个产品清单供其选择，就是实施这些新战略的方案之一。
　　目前已经有很多推荐技术，其中协同过滤技术是当前最为成功和广泛使用的个性化推荐技术。它被广泛应用于网页、电影、文章和产品的推荐，作用原理是先识别出具有相似产品需求的顾客群，然后为这一顾客群推荐产品。然而，尽管这些推荐技术业已成功，但仍暴露出一些广为人知的可能导致不良推荐的局限性，如算法的可扩展性、评价数据的稀疏性和初始资源推荐题目。
　　鉴于此，笔者提出一个新的基于向量空间模型的自适应过滤算法。该算法改进了传统算法，并将自适应反馈研究机制引进智能控制中，因此具备两个优点：一是能够进行自我学习来进步精确度；二是过滤过程无需大量的初始文本。
　　
　　一、自适应过滤算法结构
　　
　　基于向量空间模型的自适应过滤算法分为两步：练习阶段和自适应过滤阶段。
　　练习阶段的任务是获取初始过滤轮廓并设置初始阈值。
　　自适应过滤阶段的主要任务是对轮廓和阈值进行适应性修改。因主题和文档均由向量空间模型展示，所以每个主题和文档都转化为特征向量。
　　
　　(一)练习阶段的结构
　　
　　图1显示的是练习阶段的结构。首先从正文档和伪正文档中提取出特征向量。伪正文档即练习集里的那些具有与正文档非常相似的主题却未能标识成正文档的文档。它们可以由多种方式获得，可以通过伪反馈获得，或者通过种类分级结构获得：一个主题的伪正文档之高级种类与练习集提供的高级种类相同。
　　为得到特征向量，首先剔除禁用词，接着对剩余的词进行形态分析，然后根据公式(1)计算词语与主题之间的对数交互信息：
　　logMI(w_i，T_j)=log(p(w_i/T_j/p(w_i)) 　　(1)
　　上述公式中，w_i是第i个词语，T_j是第j个主题。对数交互信息越高，w_i和T_j相关性越高。p(w_i/T_j)和p(w_i)由最大可能性方法估计出。
　　对于每个主题，选取那些对数交互信息高于3.0而且在有关文档中出现不止一次的词语。对数交互信息不仅被用作选择标准，而且被用作特征词的权重。得到正文档和伪正文档的特征向量之后，将其合并到初始轮廓中。初始轮廓是正文档和伪正文档的特征向量之加权和。然后根据练习集里每个文档的相似性为每个主题设置初始阈值。轮廓与练习文档之间的相似性由如下余弦公式(2)计算出：
　　p_j是第j个主题的轮廓向量，d_i是第i个文档的向量，d_ik是d_i中第k个词语的权重，由下列公式(3)计算得出：
　　
　　d_ik=1 log(tf_ikavdlIdl)　　(3)