您所在位置：网站首页 > 学术论文 > 管理论文 > 一种基于贝叶斯分类的个性化导购推荐算法

一种基于贝叶斯分类的个性化导购推荐算法.doc

12页

卖家[上传人]：小**

文档编号：34102801

上传时间：2018-02-20

文档格式：DOC

文档大小：147.50KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10金贝

下载

/ 12 举报版权申诉马上下载

文本预览

下载提示

常见问题

一种基于贝叶斯分类的个性化导购推荐算法马汉达戴季国薛艳飞江苏大学计算机科学与通信工程学院摘要：顺应电子商务的发展趋势, 结合导购网站的个性化内容结构, 提出了基于协同过滤的推荐算法与贝叶斯分类算法相结合的混合推荐算法两种经典算法通过对用户评分值加权相加进行混合, 从而得到用户对物品最终的预测评分, 通过预测评分的高低进行推荐通过这种混合推荐算法, 可以更加充分地利用个性化导购网站的特殊结构化内容结构, 从而达到提高个性化导购网站推荐系统的推荐内容准确度的目的实验证明, 改进后的混合算法在相同的条件下能够获得更低的平均绝对误差 (MAE) 和更好的准确率及召回率关键词：协同过滤; 贝叶斯分类; 混合算法; 结构化; 准确度; 作者简介：马汉达 (1966-) , 男, 高级工程师, 研究方向为云计算、数据挖掘、信息系统技术等收稿日期：2016-11-02Personalized shopping guide recommendation algorithm based on the Bayesian classificationMA Han-da DAI Ji-guo XUE Yan-fei School of Computer Science and Telecommunication Engineering, Jiangsu University; Abstract： Following the trend of e-commerce and considering personalized content structure of shopping guide website, a new hybrid recommendation algorithm which is based on classic collaborative recommendations and content-based recommendations is proposed. Simultaneously, Bayesian classification is used in content-based recommendation algorithm. To get the final score of the hybrid algorithm, scores of collaborative and content-based algorithm are combined with particular weight numbers. After getting final scores, recommended items can be listed. Through this hybrid recommendation algorithm, it can take advantage of special content structure of personalized shopping guide website more efficiently so that we can improve the accuracy of the recommended content pushed by recommend system. The experimental results show that under the same conditions, it can reduce mean absolute error and improve precise and recall with the hybrid recommendation algorithm.Keyword： collaborative filtering; Bayes classification; hybrid algorithm; structure; accuracy; Received： 2016-11-020 引言随着互联网和电子商务的发展, 导购正蓬勃发展, 成为电子商务界一个新兴的盈利模式。

消费者往往对折扣商品情有独钟, 而每天散布在各大网络商城的折扣往往无法及时被消费者发现, 于是导购网站充当了一个媒介的作用, 将大量优惠信息集中展示在网站中, 节省了消费者搜寻优惠信息的时间, 给广大消费者和商家提供了很大的便利导购网站拥有了大量流量, 也给各大网络商城带来了大笔成交量然而, 导购网站的商品更新极其迅速, 且种类极其丰富, 用户要在每天更新的大量的商品中找到符合自己兴趣的商品比较困难推荐系统能够主动向消费者投放迎合其兴趣爱好的优惠商品的信息, 提高商家的交易量, 据统计, 亚马逊的推荐系统每年为其贡献约 30%的成交量推荐系统中常见的推荐算法有基于协同过滤的推荐算法 (Collaborative Filtering Recommendations) , 基于内容的推荐算法 (Content-based Recommendations) [1], 基于关联规则的推荐算法 (Rule-based Recommendation) [2]等等这些推荐算法都存在自身的缺点, 比如协同过滤, 当用户显式或者隐式反馈过的商品特别少, 会导致评分矩阵特别稀疏, 随着用户和商品数量的增加, 推荐内容的准确度将会受到影响。

又如基于内容的推荐, 完全基于商品本身属性进行推荐, 无法充分利用其他用户对商品的判断情况鉴于各种推荐算法都各有利弊, 许多推荐应用实际上都混合了各种推荐算法1 导购网站内容结构在导购网站中, 每一条优惠商品信息都包含大量结构化的标签本文把这些标签分为两类, 一类是用户对商品的操作或反馈, 如值, 不值, 收藏, 点击跳转, 购买等反馈, 这些反馈显示或隐式地表达了用户对商品的喜好一类是商品自身的属性, 如商城, 价位, 商品种类等, 不同的用户对商品各个属性的喜好各不相同文献[3]通过 TF-IDF 和语义分析等文本处理方法来分析新闻的特征, 但是导购网站与新闻网站内容结构大相径庭, 导购网站中关于商品的属性都有明显的结构化显示, 因此无需复杂的文本处理, 可以直接将结构化的商品属性提取并加以利用[4]常见的访问者行为追踪方式有两种, 一种是 Web 服务器日志, 另一种是 Java Script 页面标记文献[5]通过挖掘 Web 服务器日志的方式, 获取页面停留时间和页面跳转等用户行为然而, 导购系统中的用户行为大都鼠标点击行为、对象交互事件, 无法通过 Web 服务器获知因此, 本系统采用 Java Script 页面标记的方式, 记录用户行为。

在访客请求的页面中, 包含几段用来记录客户端 (浏览器) 行为的 Java Script 代码[6], 在事件被触发时执行某 JS 代码, 并通过 Ajax 将收集到的客户端行为数据发送给指定的服务器, 进而写入数据库Java Script 页面标记代码可以追踪到任何通过 JS 记录到的行为和触发的事件用 user Id, item Id 分别表示用户和商品, 用 click, purchase, favorite 分别表示点击, 购买, 收藏, 以此来记录用户行为数据系统将用户评分等级定义为 1~5, 即 score Set={scorei, j}, scorei, j=1, 2, 3, 4, 5系统通过用户行为来量化用户对商品的兴趣度公式 (1) 计算用户 i 对商品 j 的兴趣度:其中, click i, j, purchasei, j, favouritei, j的取值为 0 或 1a, b, c 是一组常数, 分别代表了用户各种行为的权重根据经验, 购买的权重应当大于收藏, 而收藏的权重又应当大于点击具体的权重大小可以根据经验进行人为的初始设定, 建立好推荐模型之后, 再根据推荐效果进行调整。

用公式 (2) 进一步处理用户评分值:式中, score i, j为新的用户评分值, score max为历史评分值的最大值, score max为更新之后的评分尺度的最大值, round 函数表示就近取整通过此公式, 将评分数据映射到 1~5 分之内有了用户 ID, 商品 ID 以及用户评分, 就可以构建用户评分矩阵, 进而进行协同过滤推荐然而, 协同过滤所使用的信息, 是其他用户对于各商品的评分, 缺乏了对商品自身属性的考量, 如何充分利用这些商品属性去提升推荐的精准度成为了一个问题2 协同过滤推荐协同过滤是利用集体智慧的一个典型方法, 集体智慧是指在大量的人群的行为和数据中收集答案, 帮助你对整个人群得到统计意义上的结论, 这些结论是在单个个体上无法得到的, 它往往是某种趋势或者人群中共性的部分[7]2.1 基于用户的协同过滤算法 (User CF) 基于用户的协同过滤算法的思想并不复杂, 就是通过用户对商品的评分向量 (ri1, ri2, …, rij) 来计算用户之间的相似度, 其中 rij表示用户 i 对商品 j 的评分相似度选用 Pearson 相似性或者余弦相似性等方法计算。

找到 N 个邻居后, 根据用户与邻居的相似度以及邻居对物品的偏好, 预测当前用户对没有评价过的商品的评分, 得到一个按照预测评分由高到低排列的商品列表作为推荐评分预测如下式所示:此公式预测用户 a 对商品 p 的评分, N 表示 a 的最近邻居, r b, p表示用户 b 对商品 p 的评分, 表示用户 b 对所有商品的平均评分Sim (a, b) 表示用户 a 和用户 b 的相似度2.2 基于物品的协同过滤算法 (User CF) 基于物品的协同过滤算法的原理和基于用户的协同过滤算法类似, 将所有用户对某个物品的评分作为评分向量 (r 1j, r2j, …, rij) 来计算物品之间的相似度, 其中 rij表示用户 i 对商品 j 的评分然后根据用户对各个物品的历史评分预测当前用户还没有评分的物品, 计算得到一个按照预测评分由高到低排序的物品列表作为推荐评分预测如下式所示:此公式预测用户 a 对商品 p 的评分, similarItems (a) 是与商品 p 相似的其他商品的集合, r a, i表示用户 a 对商品 i 的评分Sim (i, p) 表示商品 i 和商品p 的相似度2.3 User CF 与 Item CF 的适用性对比使用 User CF, 需要维护一张用户相似性表, 而使用 Item CF, 需要维护一张物品相似度表。

在选择协同过滤的方法时, 应尽量让自己要维护的相似性表稳定且易于维护[8]电商巨头亚马逊选用基于物品的协同过滤, 导购网站与传统的亚马逊这样的电商有些不同, 导购网站每天都会更新大量的优惠信息 (item) , 相比于 item 的数量, user 的数量则相对稳定, 所以维护一张用户相似度表相比于维护一张物品相似度表更加便捷, 本文选择在导购网站中使用基于用户的协同过滤算法3 朴素贝叶斯分类在机器学习中, 朴素贝叶斯分类器是一系列以假设特征之间强 (朴素) 独立下运用贝叶斯定理为基础的简单概率分类器假设某个体有 n 项特征 (Feature) , 分别为 F1, F2, …, Fn现有 m 个类别, 分别为 C1, C2, …, Cm朴素贝叶斯分类器就是计算出概率最大的那个分类, 也就是求下面这个算式的最大值[9]由于 P (F1F2…Fn) 对于所有的类别都是相同的, 可以省略, 问题就变成了求 P (F1F2…Fn|C) P (C) (6) 的最大值朴素贝叶斯分类基于这样一个假设, 即假设所有特征都彼此独立, 因此:上式等号右边的每一项, 都可以从统计资料中得到, 由此就可以计算出每个类别对应的概率, 从而找出最大概率的那个类。

图 1 展示了利用贝叶斯分类器进行分类的计算过程图 1 朴素贝叶斯分类流程下。

点击阅读更多内容