资源预览内容
第1页 / 共17页
第2页 / 共17页
第3页 / 共17页
第4页 / 共17页
第5页 / 共17页
第6页 / 共17页
第7页 / 共17页
第8页 / 共17页
第9页 / 共17页
第10页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
商务智能与数据挖掘数据挖掘技术在电影行业中的应用 基于演员信息调查结果的研究 目录1商业理解11.1研究背景与目的11.2研究对象11.3研究方法12 数据理解12.1数据的收集12.2.数据预处理23数据准备23.1数据输入23.2数据编码34.建立模型54.1决策树模型54.2关联规则模型94.3 BRP神经网络模型124.3.1 训练124.3.2 测试145. 总结151商业理解1.1研究背景与目的在当今的电影行业中,导演在选取演员时很多都是凭感觉和推荐,很好去挖掘演员信息来确定,在薪酬方面也不合理,有些导演为了提高电影票房,一味的去选取知名度较高的明星及所谓的大腕,付予高报酬,大大地增加了其制作成本。本文通过对演员调查信息的分析,找出与收入有关的因素,并分析其规则。为导演在选取演员和决定所付薪水时提供依据,有效地减少制作成本。1.2研究对象本文主要以Movie Survey中所调查的演员为研究对象来对演员的Income进行分析,找出其有关因素。1.3研究方法主要采用的是决策树技术、关联规则、神经网络3种数据挖掘方法,对大量的演员信息调查数据进行分析与挖掘,最后形成相关数据模型。2 数据理解2.1数据的收集本文主要是以MovieSurvey.mdb中所调查的演员为研究对象,由于所调查的演员数量较多有3500多条,并且某些演员信息不全,经筛选后这里只取了信息完整的,所在国家为United States的Female演员,一共有310条记录。将前200条记录作为训练集,后面110条数据作为测试集。2.2.数据预处理由于准备用于挖掘的演员信息表中的属性个数较多,有22个。为了便于决策树模型的建立,选择其中与Income属性相关性较大的Age ,Education Level, Marital Status, Home Ownership, Num Children, Num Cars, Theater Freq 七个属性作为建立Income分类决策树模型的依据,生成新的演员信息基本数据表。3数据准备3.1数据输入(1)在数据窗口,选择菜单“文件新建数据窗口”,建立一个新的数据文件。如图3-1。图3-1 进入数据窗口(2)在数据窗口,点击工具栏上的变量设置按钮,切换到变量窗口。并进行变量设置如下:图3-3 变量设置(3)数据录入3.2数据编码编码规则:1. 变量Age属性:2030用“1”表示,3040用“2”表示,4050用“3”表示,5060用“4”表示2. 变量Education level属性:masters degree 用“1”表示,Post-Doc用“2”表示,Bachelors degree用“3”表示,some college 用“4”表示,Doctorate 用“5”表示,Associates degree用“6”表示,Grade School 用“7”表示,high school 用“8”表示。3. 变量Home Ownership属性:Own用“1”表示,Rent 用“2”表示4. 变量Marital Status属性:Married用“1”表示,Never Ma用“2”表示,Separate用“3”表示,Other 用“4”表示5. 变量Num Children属性:用0、1、2、3表示实际个数6. 变量Num Cars属性:用0、1、2、3、4表示实际个数7. 变量Theater Freq属性:Rarely用“1”表示,weekly用“2”表示,Monthly用“3”表示,Never 用“4”表示1编码后结果如下图3-4 编码后数据表(图中为一部分)4.建立模型4.1决策树模型用决策树方法进行挖掘的步骤和结果如下所示:1.选择数据挖掘决策树图4-1 选择数据源2.选择决策树方法 图4-23.数据源、决策树相关设置其相关设置如图4-4和图4-5所示。图4-3数据源设置图4-4 变量设置图4-5 决策树设置4.得出统计信息(1)决策树描述: 所处理记录个数:200;丢弃的记录个数:2;决策树正确率:100.0,(分裂时一个分支的最小样本数大于2 ,连续值分叉结点的最大分叉数3;生成树方法为信息熵 ;树剪枝的方法:深度剪枝,最大深度为5) (2)决策树结果见图4-6图4-6 决策树(3) 决策树变量分类重要性决策树变量分类重要性变量名称重要性Education Level87.22Home Ownership55.91Marital Status100.00Theater Freq58.12Customer ID62.26Age58.02Num Children29.32Num Cars58.78表4-7决策树变量分类重要性(4)相关规则有决策树结果信息和变量属性的表示方法可以得到65条规则.由于规则较多,下面选取的是可信度为100%的规则一共19条规则4 如果: Marital Status 属于 Married 并且: Education Level 属于 Bachelors Degree 并且: Customer ID 属于 884765.99 ,891464.40) 并且: Theater Freq 属于 Never 那么: Income = 150000(可信度100.00%)规则9 如果: Marital Status 属于 Married 并且: Education Level 属于 Bachelors Degree 并且: Customer ID 属于 =904861.20 并且: Home Ownership 属于 Rent 那么: Income = 60000(可信度100.00%)规则15 如果: Marital Status 属于 Married 并且: Education Level 属于 Masters Degree 并且: Age 属于 32.00 ,37.40) 并且: Num Cars 属于 =2.20 那么: Income = 150000(可信度100.00%)规则17 如果: Marital Status 属于 Married 并且: Education Level 属于 Masters Degree 并且: Age 属于 =37.40 并且: Customer ID 属于 890003.33 ,900478.00) 那么: Income = 100000(可信度100.00%)规则24 如果: Marital Status 属于 Married 并且: Education Level 属于 Associates Degree 并且: Customer ID 属于 =892014.27 那么: Income = 75000(可信度100.00%)规则26 如果: Marital Status 属于 Married 并且: Education Level 属于 Doctorate 并且: Theater Freq 属于 Weekly 那么: Income = 120000(可信度100.00%)规则28 如果: Marital Status 属于 Married 并且: Education Level 属于 Doctorate 并且: Theater Freq 属于 Never 那么: Income = 100000(可信度100.00%)规则29 如果: Marital Status 属于 Married 并且: Education Level 属于 Grade School 那么: Income = 70000(可信度100.00%)规则44 如果: Marital Status 属于 Never Ma 并且: Education Level 属于 Masters Degree 并且: Age 属于 =36.40 并且: Theater Freq 属于 Monthly 那么: Income = 60000(可信度100.00%)规则49 如果: Marital Status 属于 Never Ma 并且: Education Level 属于 Doctorate 那么: Income = 100000(可信度100.00%)规则50 如果: Marital Status 属于 Never Ma 并且: Education Level 属于 High School 那么: Income = 80000(可信度100.00%)规则51 如果: Marital Status 属于 Separate 并且: Education Level 属于 Bachelors Degree 那么: Income = 200000(可信度50.00%)规则52 如果: Marital Status 属于 Separate 并且: Education Level 属于 Doctorate 那么: Income = 135000(可信度100.00%)规则53 如果: Marital Status 属于 Separate 并且: Education Level 属于 Post-Doc 那么: Income = 100000(可信度100.00%)规则58 如果: Marital Status 属于 Divorced 并且: Education Level 属于 Bachelors Degree 并且: Home Ownership 属于 Own 并且: Customer ID 属于 =890170.80 那么: Income = 75000(可信度100.00%)规则59 如果: Marital Status 属于 Divorced 并且: Education Level 属于 Bachelors Degree 并且: Home Ownership 属于 Rent 那么: Income = 45000(可信度100.00%)规则60 如果: Marital Status 属于 Divorced 并且: Education Level
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号