资源预览内容
第1页 / 共45页
第2页 / 共45页
第3页 / 共45页
第4页 / 共45页
第5页 / 共45页
第6页 / 共45页
第7页 / 共45页
第8页 / 共45页
第9页 / 共45页
第10页 / 共45页
亲,该文档总共45页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
基于某淘鞋网的商品个性化推荐 目录摘要3一、绪论41.1、项目背景41.2、数据挖掘在个性化推荐系统中的意义61.3、数据挖掘在个性化推荐系统中的应用现状61.4、数据挖掘技术主要方法71.5、数据挖掘在个性化推荐系统中的数据处理过程:81.6、目标与可行性方法9二、数据分析102.1、本次数据挖掘所用到的属性及解释:102.2、对各分类信息进行统计:11112.3、各分类信息统计结论13三、推荐系统设计143.1、系统设计流程143.2、生成全国热门表算法:153.3、生成省份热门表算法:173.4、生成随机推荐表算法183.5、抽取历史记录生成推荐表算法:193.6、生成新用户推荐列表算法:193.7、生成老用户推荐列表算法:203.8、评价指标算法:21四、系统个性化推荐的实现254.1、输入模块254.2、输出模块26五、局限性分析275.1、个性化推荐在电子商务中应用的局限性:275.2本个性化推荐系统软件的局限性:27六、总结与体会28附录30附录1网上购鞋情况调查问卷30摘要“基于某淘鞋网的商品个性化推荐”项目是根据数据挖掘研究方法以及当前个性化推荐技术现状,通过对得到的数据进行处理,提取出三个关键属性。通过将“根据ip判断所在省份的热门、访问日期的全国热门、浏览记录、随机”推荐这四者,计算并比较权重,按照一定的标准进行合适的结合,得出7条推荐数据,其中每条推荐数据中包括了“品牌、类型、男/女”这三个最重要的商品属性,使得该商品个性化推荐系统更智能、更准确。关键词:某淘鞋网、个性化推荐、历史记录、热门表摘要要体现选题的背景,如何做?得到什么结论。关键词重新提炼一、绪论1.1、项目背景中国互联网络信息中心(CNNIC)在北京发布的第 29 次中国互联网络发展状况统计报告显示:电子商务类应用继续保持稳步发展,其中网络购物用户规模达到 1.94 亿人,增长率达到 20.8%。随着电子商务的迅猛发展,提供电子商务的网站数量和电子商务网站上的商品信息数量都呈现出指数增长的态势。面对如此海量的商品信息,如何便捷、快速地获取到用户感兴趣的商品信息已经成为了一个热门研究课题。本项目是对某一特定的淘鞋网进行研究,主要为购买鞋的网购者推荐相应的“品牌、类型、男/女”的鞋子。在项目启动前,我们做了网上购鞋情况调查问卷(见附录1),发放问卷20份,收回问卷20份,量太少!问卷收回率100%,问卷覆盖范围为广外大三信息学院部分学生。调查结果显示:由此可知,绝大部分消费者是经常浏览购物网站的。但消费者网购的商品中是否曾经购过鞋子呢?我们的调查问卷调查结果显示如下:调查结果显示,大约85%的网购者曾经在网上购买过鞋子,由此可见,我们项目所研究的针对淘鞋网推荐特定的“品牌、类型、男/女”具有重大的意义。项目启动前主要考虑的问题重点如下:不同品牌之间是否存在互斥?针对品牌互斥问题,我们进行了网上购鞋情况调查问卷,设计的问题是:您是否对特定的品牌有强烈偏好以至排斥相同类型的其他牌子(如阿迪达斯和耐克)?统计结果如下图: 分析结果得出以下结论: 大约90%的人不会强烈偏好特定品牌而排斥其他品牌 就目前中国人民的消费水平而言,购买者更在乎的是价格、质量,而不是特定的某一牌子。 绝大多数网购者反应,品牌之间的竞争只是他们公司的竞争,并不会影响到他们购买的选择。网购者可以接受由其他人介绍的各种品牌,也可以接受商品个性化自主为他们推荐的品牌。 所以,联系已有的相关参考文献,就国内消费形势而言,商品个性化推荐系统没有必要考虑品牌的互斥。1.2、数据挖掘在个性化推荐系统中的意义往后几节再整合个性化推荐系统这个概念包含两部分的含义:推荐和个性化。推荐实质上是替用户评估他从来没见过的商品,这些商品可以是电影、书、笑话、网页、甚至还可以是旅游、音乐、电子产品等等;对用户来说,推荐根本上就是一个让用户自身对商品信息从未知到已知的过程。“基于某淘鞋网的商品个性化推荐”是为网购者推荐鞋子的,所推荐的商品属性包括“品牌、类型、男/女”,例如:耐克男运动鞋,阿迪达斯女板鞋,达芙妮女高跟鞋等等。所谓个性化,它体现出的是一种用户个体的个性,也就是这个用户不同的其他用户的地方;在推荐领域中,个性化就要求推荐系统能针对不同的用户分析他的行为和兴趣然后在现有的商品中推荐用户感兴趣的商品,这个推荐结果对不同用户注定是不同的,是有针对性的,这些就体现出了推荐系统的个性化。在用户决定一个电子商务网站的前途的今天,个性化推荐系统就是一个为用户而生的系统,商品个性化推荐具有以下重大意义: 用户在访问海量商品信息时个性化推荐系统能帮助用户快速获取他感兴趣的商品,避免用户陷于到“信息超载”问题中而不能自拔。 优质的个性化推荐系统能为用户发掘用户新的兴趣点,为用户推荐一些他感兴趣但他从没听说过的商品。 商品个性化推荐,为用户节省大量的购买时间。帮助用户轻松地找到所想要购买的商品。 个性化推荐系统在为用户带来个性、便捷的服务的同时,也为电子商务商家带来巨大的经济利益,引导用户购买本不打算购买的商品,既为本网站的商品做了宣传,也强烈地刺激的用户的消费欲望。1.3、数据挖掘在个性化推荐系统中的应用现状近十几年,随着科学技术飞速的发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据,如人类对太空的探索,银行每天的巨额交易数据显然在这些数据中丰富的信息,如何处理这些数据得到有益的信息,人们进行了有益的探索。计算机技术的迅速发展使得处理数据成为可能,这就推动了数据挖掘技术的极大发展。近年来,如何提高商业网站的有效性,尤其是如何运用个性化推荐技术实现电子商务个性化服务已逐渐成为一个能引起广泛兴趣的热点课题。但目前国内大多数电子商务网站的商品推荐通常是:推荐热门产品(即根据当前的购买量推荐);推荐相关产品(推荐相似的产品);根据用户浏览历史的推荐(较常见的是显示该用户曾经购买的商品)。可以说,前两种推荐由于根本未考虑不同用户的个性特点,因此推荐完全不具备个性化的特点,第三种推荐有一定的个性化成份,但多数网站还仅仅停留在仅针对该用户一个人的购买历史,只是为每个用户建立了一个个人购买档案,没有横向进行信息综合,因此没有协作推荐价值,所以也无法实现商品的实时综合推荐。传统的搜索算法只能帮助我们去检索商品信息,然后将同样的与关键字相关的商品信息呈现给所有用户。实质上,传统的搜索算法是从海量的商品信息中过滤出与关键字相关的相关信息,针对特定用户自身的特定需求,它就显得无能为力了。因此针对特定网站进行相关产品推荐显得相当有必要。1.4、数据挖掘技术主要方法后续用到什么就介绍什么数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下几类分析方法: (1)关联分析关联分析就是从大量数据中发现项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定。关联分析的主要方法有Apriori算法等。(2)分类和预测分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测数据未来的趋势。就是研究已分类资料的特征,分析对象属性,据此建立一个分类函数或分类模型,然后运用该模型计算总结出的数据特征,将其他未经分类或新的数据分派到不同的组中。计算结果通常简化为几个离散值,常用来对资料作筛选工作。分类和预测的应用十分广泛, 例如,可以建立一个分类模型,对银行的贷款客户进行分类,以降低贷款的风险;也可以通过建立分类模型,对工厂的机器运转情况进行分类,用来预测机器故障的发生。分类的主要方法有ID3算法、C4.5算法、SLIQ算法、神经网络方法等。(3)聚类分析当要分析的数据缺乏描述信息,或是无法组成任何分类模式时就采用聚类的方法,将异质母体区隔为较具同构性的群,即将组之间的差异识别出来,并对个别组内的相似样本进行挑选,实现同组数据相近,不同组数据相异。分类功能和聚类功能是不同的,分类是根据预先定好的一些特征值对对象分组,组或类是预先确定好的,而聚类是事先不知道的条件下根据对象的一些相似特征分组。聚类也便于将观察到的内容组织成分层结构,把类似的事件组织在一起。聚类分析的主要方法有划分方法、层次方法、基于网格的方法、统计学和神经网络方面的方法。(4)孤立点分析数据库中可能包含一些数据对象,它们与数据的一般行为或模式不一致。这些数据对象就是孤立点。许多数据挖掘算法试图使孤立点的影响最小化,或者排除它们。但在一些应用中孤立点本身可能是非常重要的信息。例如在欺诈探测中,孤立点可能预示着欺诈行为。(5)时间序列分析在时间序列分析中,数据的属性值是随着时间不断变化的。这些数据一般在相等的时间间隔内取得,但是也可以在不相等的时间间隔内取得。通过时间序列图可以将时间序列数据可视化。时间序列分析目前有三个基本功能:一是模式挖掘,即通过分析时间序列的历史形态来研究事务的行为特征;二是趋势分析,即利用历史时间序列预测数据的未来数值;三是相似性搜索,即使用距离度量来确定不同时间序列的相似性。1.5、数据挖掘在个性化推荐系统中的数据处理过程:我们项目组所得到的原始数据大约有6万条,剔除与鞋子无关的数据后,并且经过预处理,得到有用的数据约28000条。从得到的有用数据中抽出出数据的三个关键属性“品牌、类型、男女”,数据处理过程如下:从所得到的28000条数据中随机抽取5%作为测试集,剩下的95%作为训练集。测试集中所包含的数据包括了IP、IP所在的省份、品牌、类型、男女、访问日期。1.6、目标与可行性方法目标:“基于某淘鞋网的商品个性化推荐”精确地为用户推荐鞋子的“类型、品牌、男/女”这三个属性,力求精确率达到80%。用于帮助网店经营者提高营销及服务质量,更好地挖掘潜在客户及客户的购买潜能。我们项目的“基于某淘鞋网的商品个性化推荐”对热门商品、相似产品、浏览历史以及随机这四者结合,进行特地鞋子“品牌、类型、男/女”进行精确的推荐。针对特定的淘鞋网站,实现的可行性方法如下:情况一:没有浏览历史的新IP: 立足于购买时间所处的全国热门鞋子品牌、类型, 以及访问IP所处的省份对应的热门鞋子品牌、类型,两者重叠呢? 随机挑选情况一:有浏览历史记录的旧IP: 在情况一的基础上,再加上根据浏览记录的推荐二、数据分析2.1、本次数据挖掘所用到的属性及解释:名称解释备注省份根据访问淘鞋网用户所用IP地址判断的来源省份品牌根据搜索的标题判断出的用户有意向购买的鞋子的品牌类型根据搜索的标题判断出的用户有意向购买的鞋子的类型男女根据用户的标题判断出用户有意向购买鞋子的男女属性访问日期用户访问淘鞋网的日期时用户访问淘鞋网的时间的小时部分2.2、对各分类信息进行统计:省份属性统计条状图品牌属性统计条状图类型属性统计条状图男女属性统计条状图访问时间属性统计条状图2.3、各分类信息统计结论再整理 在本次统计中,共出现了34个省份,计样本总数为28103. 在本次统计中北京和广东省以12.3%和12.1%的绝对优势占据省份统计的前两名,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号