资源预览内容
第1页 / 共25页
第2页 / 共25页
第3页 / 共25页
第4页 / 共25页
第5页 / 共25页
第6页 / 共25页
第7页 / 共25页
第8页 / 共25页
第9页 / 共25页
第10页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
森森马马官方旗官方旗舰舰店店 李宁官方商城李宁官方商城1案例探讨内容内容l简简介介l原始数据源原始数据源l资资料前置料前置处处理理l资资料料仓储设计仓储设计l资资料探勘料探勘结结果果l总结总结2案例探讨简简介介l以以图书图书借借阅阅数据数据为为例,例,说说明数据探勘的明数据探勘的处处理理过过程程:n数据取得、需求分析、资料整理、n资料仓储建立、资料探勘、结果分析。l探探讨问题讨问题:n探讨不同科系是否借阅不同类别的书?n不同年级学生是否借阅不同类别的书?n大学部与研究生是否有不同的借阅习惯?n图书分类是否有改进的地方?n借阅纪录是否隐藏不易发掘而且重要的信息 ?l实实例解例解说资说资料探勘料探勘过过程,了解数据探勘的程,了解数据探勘的过过程,建程,建立具体的印象与立具体的印象与观观念,注重念,注重过过程,而非程,而非结结果。果。3案例探讨内容内容l简简介介l原始数据源原始数据源l资资料前置料前置处处理理l资资料料仓储设计仓储设计l资资料探勘料探勘结结果果l总结总结4案例探讨原始数据源原始数据源l根据需求分析,只考根据需求分析,只考虑书虑书籍、系所部籍、系所部门门、读读者、借者、借阅阅数据数据 四个数据表四个数据表数据表名称数据表名称原始资料总笔数原始资料总笔数字段个数字段个数Book36429922Department3239Reader3731831History (借阅历史资料借阅历史资料)35案例探讨内容内容l简简介介l原始数据源原始数据源l资资料前置料前置处处理理l资资料料仓储设计仓储设计l资资料探勘料探勘结结果果l总结总结6案例探讨第一第一阶阶段数据前置段数据前置处处理理(1)l原始数据利用数据原始数据利用数据转换汇转换汇入入SQL Serverl将将 Reader与与 Department 数据表合成新的数据表合成新的 Reader 数据表数据表 。l在在Reader 数据表内:数据表内:n增加增加college字段,建立:系所字段,建立:系所学院学院 概念概念阶层阶层。 n依学号分依学号分类类,新增,新增grade字段,字段,记录记录用用户户年年级级,区分,区分为为freshman、sophomore、junior、senior、postgraduate、candidate for PhD、teacher等七个等七个类别类别。 n只保留只保留 rno(读读者者id)、dept_code、dept_name、college_name、grade 字段,其余字段全部字段,其余字段全部删删除。除。 7案例探讨第一第一阶阶段数据前置段数据前置处处理理(2)l在在Book 数据表内的:数据表内的:n根据中西文根据中西文图书图书分分类类,在索,在索书书号上新增号上新增sub_class及及class属性,建立属性,建立书书籍种籍种类类的概念的概念阶层阶层 。n将将language字段重新分字段重新分类类,保留最多的中文、英文、日,保留最多的中文、英文、日文三文三类类,将其余,将其余语语言言归类为归类为other。n建立建立publsih_interval字段,出版年以五年字段,出版年以五年为为一区一区间间,作,作为为出版年代的概念出版年代的概念阶层阶层之用。之用。n仅仅留下留下marc_id(书书籍籍id)、title、author、publisher、publish_year、language、subject、marc_class、class、sub_class、publish_interval等字段。等字段。8案例探讨第一第一阶阶段数据前置段数据前置处处理理(3)l利用中西文利用中西文图书图书分分类检类检表,将表,将书书分分为为4大大类类,大大类类再再细细分成子分成子项项目。目。9案例探讨第一第一阶阶段数据前置段数据前置处处理理(4)l在在History 数据表内:数据表内:n将借将借阅阅日期拆成三个字段:借日期拆成三个字段:借阅阅年、借年、借阅阅月、借月、借阅阅日,作日,作为为将来将来时间时间的概念的概念阶层阶层。n加入加入amount 字段,代表借字段,代表借书书的本数,一般都的本数,一般都为为 1,作,作为为事事实实数据表的量数据表的量值值。n仅仅留下留下marc_id、rno、borrow_year、borrow_month、borrow_date、amount字段,其字段,其中中amount字段字段为为量量值值。10案例探讨第二第二阶阶段数据前置段数据前置处处理理(1)l在在 Reader 数据表,分析数据表,分析对对象象为为正常学制学生,正常学制学生,删删除除外校人士、行政人外校人士、行政人员员、在、在职专职专班、班、转转系、大五、大六、系、大五、大六、系所空白者、身分无法辨系所空白者、身分无法辨认认者。者。l在在 Book 数据表内,数据表内,删删除索除索书书号不完全者;号不完全者;删删除期刊除期刊数据及校内数据及校内论论文、不能外借之文、不能外借之书书籍(如当期籍(如当期杂杂志)、志)、视视听听资资料(如料(如CD、LD、tape)等。)等。l在在 History 数据表内,数据表内,删删除索除索书书号不完整之号不完整之纪录纪录;删删除除rno(user id)无法在整理无法在整理过过的的Reader 数据表找到之数据表找到之纪录纪录;删删除索除索书书号无法在整理号无法在整理过过的的Book 数据表找到数据表找到之之纪录纪录。11案例探讨第二第二阶阶段数据前置段数据前置处处理理(2)l资资料整理前后数据表内容料整理前后数据表内容变变化比化比较较数据表数据表名称名称原始资料原始资料总笔数总笔数资料整理后资料整理后的总笔数的总笔数原始字原始字段个数段个数整理过后整理过后字段个数字段个数Book364299752142211Reader373188587315History 6120753612案例探讨内容内容l简简介介l原始数据源原始数据源l资资料前置料前置处处理理l资资料料仓储设计仓储设计l资资料探勘料探勘结结果果l总结总结13案例探讨数据数据仓储设计仓储设计(1)l事事实实数据表:数据表:History 为为事事实实数据表,数据表,amount 量量值值。l维维度:度:Reader、Book与与Time三个三个维维度。度。14案例探讨数据数据仓储设计仓储设计(2)l在在Reader 维维度数据表内找到两种概念度数据表内找到两种概念阶层阶层:n年年级级:rno graden学院系所:学院系所:rno dept_name college_namel在在Book 维维度数据表内找到三种概念度数据表内找到三种概念阶层阶层:n语语言:言:title languagen主主题题分分类类:title sub_class classn出版年:出版年:publish_year publish_intervall在在 Time 维维度找到一种概念度找到一种概念阶层阶层:n借借阅阅日期:日期:borrow_dateborrow_monthborrow_year15案例探讨数据数据仓储设计仓储设计(3)l星状式架构的星状式架构的资资料料仓储仓储16案例探讨内容内容l简简介介l原始数据源原始数据源l资资料前置料前置处处理理l资资料料仓储设计仓储设计l资资料探勘料探勘结结果果l总结总结17案例探讨判定判定树资树资料探勘分析料探勘分析预预 测测 项项 目目书籍、学生、语言类别书籍、学生、语言类别百百 分分 比比(预测借书类别预测借书类别)人文社会学院博人文社会学院博士班学生士班学生Art 13.56%General1.69%Geography/History1.69%Language/Literature1.69%Natural Sciences59.32%Philosophy/Psychology6.78%Religion1.69%Social Sciences11.86%Missing1.69%(预测借阅读者预测借阅读者的身分的身分)心理哲学方面心理哲学方面的英文书的英文书Candidate for PhD11.08%Freshman7.06%Junior16.67%Postgraduate34.58%Senior15.59%Sophomore14.25%Teacher0.75%Missing0.03%(预测借阅书籍预测借阅书籍的语言的语言)语言文学方面语言文学方面被借的书籍被借的书籍Chinese66.58%English33.32%Japan0.09%Others0.01%Missing0.00%18案例探讨分群分群资资料探勘分析料探勘分析(1)群组一:不同时间借书比例群组一:不同时间借书比例Cluster 1 总计总计3064.04100.00%2001/Dec242.447.91%2001/Apr236.857.73%2002/Apr225.347.35%2002/May223.597.30%2002/Mar220.517.20%2001/Nov218.387.13%2001/Oct198.856.49%2002/Jan196.186.40%2001/Mar190.566.22%2001/May188.306.15%2002/Feb173.925.68%2001/Feb169.105.52%2001/Jun146.564.78%2001/Sep145.134.74%2001/Jan118.293.86%2001/Aug90.892.97%2001/Jul79.152.58%Missing00.00%群组二:不同时间借书比例群组二:不同时间借书比例Cluster 2 总计总计2951.87100.00%2002/May318.2110.78%2001/Dec225.627.64%2001/Jan221.287.50%2002/Apr203.856.91%2001/Nov197.876.70%2001/Feb190.026.44%2002/Jan184.676.26%2002/Mar180.36.11%2001/May179.826.09%2001/Oct179.096.07%2001/Mar174.695.92%2001/Apr154.055.22%2001/Jun150.355.09%2002/Feb141.994.81%2001/Sep127.514.32%2001/Jul69.082.34%2001/Aug53.461.81%Missing00.00%19案例探讨分群分群资资料探勘分析料探勘分析(2)群组一:不同年级、类别借书比例群组一:不同年级、类别借书比例Cluster 1 总计总计3064.04100.00%Postgraduate 1347.7543.99%Candidate for PhD 427.3713.95%Sophomore 375.9612.27%Junior318.1110.38%Freshman 300.599.81%Senior287.559.38%Teacher6.720.22%Missing00.00%群组二:不同年级、类别借书比例群组二:不同年级、类别借书比例Cluster 2 总计总计2951.87100.00%Postgraduate 1322.5644.80%Freshman 489.1216.57%Candidate for PhD 427.7714.49%Sophomore 339.0911.49%Junior217.247.36%Senior139.524.73%Teacher16.570.56%Missing00.00%20案例探讨分群分群资资料探勘分析料探勘分析(3)群组一:不同类别书籍被借比例群组一:不同类别书籍被借比例Cluster 1 总计总计3064.04100.00%Natural Sciences 1611.5152.59%Language/Literature 411.5513.43%Social Sciences 352.2311.50%General240.927.86%Art178.235.82%Geography/History 142.674.66%Philosophy/ Psychology108.163.53%Religion18.760.61%Missing00.00%群组二:不同类别书籍被借比例群组二:不同类别书籍被借比例Cluster 2 总计总计2951.87100.00%Natural Sciences 1864.7663.17%Language/Literature 355.0212.03%Social Sciences 275.099.32%General155.555.27%Geography/History 119.214.04%Art104.283.53%Philosophy/Psychology61.622.09%Religion16.340.55%Missing00.00%21案例探讨关关连连法法则资则资料探勘分析料探勘分析(1)项次项次学学 生生 类类 别别Imply书籍类别书籍类别支持度支持度 (%)信赖度信赖度 (%)1College = Electrical Engineering and Computer Science ANDPeople = Candidate for PhD.Natural Science12.290.02College =Electrical Engineering and Computer Science ANDPeople = PostgraduateNatural Science23.896.23College = Engineering ANDPeople = PostgraduateNatural Science12.796.24College = Science ANDPeople = PostgraduateNatural Science10.885.75College = Electrical Engineering AND Computer ScienceNatural Science40.592.76College = EngineeringNatural Science22.593.37College = ScienceNaturalScience21.278.98People = Candidate for PhD.NaturalScience26.291.09People = PostgraduateNatural Science48.589.822案例探讨结结果分析果分析 l发现发现借借阅阅率率较较高的高的书书,大多是,大多是1988年到年到1999年,建年,建议议多多购购新新版的版的书书,或者,或者调查调查新新书书流流动动率不高的原因。率不高的原因。l每个系所借每个系所借阅书阅书籍的种籍的种类类,和所学科系有相关,建,和所学科系有相关,建议议借借阅阅方方式可以更式可以更弹弹性。例如,提高性。例如,提高电电子系学生借子系学生借阅电阅电子子类别书类别书目的目的册数,以方便学生册数,以方便学生阅读阅读与研究。与研究。l书书籍籍 subject字段字段(表示表示书书的的类别类别),此,此类别为类别为人工手人工手动动建置,建置,n所以字段格式并不所以字段格式并不统统一,例如:有一,例如:有Computer Language Makeup Language、Computer_Language_Makeup_ Language、 Computer Language:Extensible Makeup Language等,建等,建议议将分将分类类机制由手机制由手动输动输入改入改为类为类似下拉式似下拉式选单选单挑挑选选,以提高,以提高书书目目资资料的准确度。料的准确度。23案例探讨内容内容l简简介介l原始数据源原始数据源l资资料前置料前置处处理理l资资料料仓储设计仓储设计l资资料探勘料探勘结结果果l总结总结24案例探讨总结总结l以以图书图书借借阅阅数据数据说说明数据探勘的明数据探勘的处处理理过过程。程。l需求分析与需求分析与资资料整理的工作量不小。料整理的工作量不小。l细节细节(参数参数调调整等整等)必必须须靠靠读读者自行者自行练习练习。l帮助帮助读读者建立者建立资资料探勘具体的印象与料探勘具体的印象与观观念。念。l找找贵贵校的校的图书馆图书馆合作,合作,进进行行类类似数据探勘。似数据探勘。25案例探讨
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号