资源预览内容
第1页 / 共92页
第2页 / 共92页
第3页 / 共92页
第4页 / 共92页
第5页 / 共92页
第6页 / 共92页
第7页 / 共92页
第8页 / 共92页
第9页 / 共92页
第10页 / 共92页
亲,该文档总共92页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
神奇的神奇的googlegoogle 网上查询信息的首选方式网上查询信息的首选方式http:/www.google.com 特色:特色:Google Google 具有网页快照功能具有网页快照功能 Google Google 释义释义 Google Google 是由英文单词是由英文单词“googolgoogol”变化而来。变化而来。 “googolgoogol” 表示表示 10 10 的的100100次方。次方。 Google Google 使用这个词代表公司想征服网上无穷使用这个词代表公司想征服网上无穷无尽资料的雄心。无尽资料的雄心。男学生更容易逃课吗? 读读完完四四年年大大学学,一一次次课课也也没没有有逃逃过过,这这样样的的学学生生恐恐怕怕不不多多。2004年年5月月,中中国国人人民民大大学学财财政政金金融融学学院院的的3名名学学生生就就逃逃课课问问题题做做了了一一次次调调查查。调调查查的的对对象象是是财财政政金金融融学学院院的的大大一一,大大二二,大大三三本本科科生生。样样本本的的抽抽取取方方式式是是分分层层抽抽样样与与简简单单随随机机抽抽样样结结合合,先先根根据据年年级级划划分分层层次次,然然后后对对各各个个班班级级简简单单随随机机抽抽样样,共共抽抽取取151名名学学生生组组成成一一个个样样本本,并并对对每每个个学学生生采采用用问问卷卷调调查查。问问卷卷内内容容包包括括每每周周逃逃课课次次数数、所所逃逃课课程程的的类类型型(选选修修课课、专专业业课课等等等等)和和逃逃课课原原因因等等。调调查查得得到到的男女学生每周平均逃课次数的汇总表如下的男女学生每周平均逃课次数的汇总表如下 男学生更容易逃课吗?1518962合合计321其他其他6335次以上次以上10463到到5次次5531241到到3次次774928几乎一次不逃几乎一次不逃合合计女女男男逃逃课情况情况你你认认为为男男学学生生更更容容易易逃逃课课吗吗?用用哪哪些些简简单单的的统统计计描描述述支支持持你你的的看看法法?如如果果要要用用图图形形表表现现上上面面的的数数据据,反反映映男男女女学学生生逃逃课课方方面面的的差差异异、逃逃课课次次数数的的构构成成以以及及男男女女学学生生在在逃逃课课方方面面是是否否具具有相似性等等,有哪些图形可供你选择使用呢?有相似性等等,有哪些图形可供你选择使用呢?本本 章章 重重 点点分类和顺序数据的整理与显示分类和顺序数据的整理与显示数值型数据的整理与显示方法数值型数据的整理与显示方法统计图、表的统计图、表的统计图、表的统计图、表的EXCELEXCELEXCELEXCEL绘制绘制绘制绘制第一节第一节 统计整理统计整理 一、统计整理的意义和步骤一、统计整理的意义和步骤 二、统计数据的预处理二、统计数据的预处理 统计整理统计整理将统计调查得到的原始资料进行将统计调查得到的原始资料进行科学的分组和汇总形成综合统计科学的分组和汇总形成综合统计资料的工作过程资料的工作过程是统计调查的继续,统计分析的是统计调查的继续,统计分析的前提和基础前提和基础地位地位统计数据的处理:统计数据的处理: 统计资料的分组、汇总及制表统计资料的分组、汇总及制表统计数据的管理:统计数据的管理: 数据的传输、贮存、更新及输出数据的传输、贮存、更新及输出内内容容制定统计整理方案制定统计整理方案对原始资料进行审核对原始资料进行审核数数 据据 处处 理理制作统计表或统计图制作统计表或统计图统计整理的步骤统计整理的步骤数据的预处理1.数据审核检查数据中的错误2.数据筛选找出符合条件的数据3.数据排序升序和降序寻找数据的基本特征4.数据透视按需要汇总数据审核数据审核原始数据原始数据(raw data)1.完整性审核完整性审核应调查的单位或个体是否有遗漏应调查的单位或个体是否有遗漏所有的调查项目或变量是否填写齐全所有的调查项目或变量是否填写齐全2.准确性审核准确性审核数数据据是是否否真真实实反反映映实实际际情情况况,内内容容是是否否符符合合实际实际数据是否有错误,计算是否正确等数据是否有错误,计算是否正确等数据的审核数据的审核二手数据二手数据(secondhanddata)1.适用性审核适用性审核弄弄清清楚楚数数据据的的来来源源、数数据据的的口口径径以以及及有有关关的的背景材料背景材料确定数据是否符合自己分析研究的需要确定数据是否符合自己分析研究的需要2.时效性审核时效性审核尽可能使用最新的数据尽可能使用最新的数据3.确认是否有必要做进一步的加工整理确认是否有必要做进一步的加工整理数据筛选数据筛选(data filter)1.当当数数据据中中的的错错误误不不能能予予以以纠纠正正,或或者者有有些些数数据据不不符符合合调调查查的的要要求求而而又又无无法法弥弥补补时时,需要对数据进行筛选需要对数据进行筛选2.数据筛选的内容数据筛选的内容将将某某些些不不符符合合要要求求的的数数据据或或有有明明显显错错误误的的数数据予以剔除据予以剔除将将符符合合某某种种特特定定条条件件的的数数据据筛筛选选出出来来,而而不不符合特定条件的数据予以剔除符合特定条件的数据予以剔除用用Excel进行数据筛选进行数据筛选8 8名学生的考试成绩数据名学生的考试成绩数据名学生的考试成绩数据名学生的考试成绩数据 数据排序数据排序(data rank)1.按按一一定定顺顺序序将将数数据据排排列列,以以发发现现一一些些明明显的特征或趋势,找到解决问题的线索显的特征或趋势,找到解决问题的线索2.排排序序有有助助于于对对数数据据检检查查纠纠错错,以以及及为为重重新归类或分组等提供依据新归类或分组等提供依据3.在在某某些些场场合合,排排序序本本身身就就是是分分析析的的目目的的之一之一4.排序可借助于计算机完成排序可借助于计算机完成数据排序数据排序 (方法)1.分类数据的排序分类数据的排序字字母母型型数数据据,排排序序有有升升序序降降序序之之分分,但但习习惯惯上上用升序用升序汉汉字字型型数数据据,可可按按汉汉字字的的首首位位拼拼音音字字母母排排列列,也也可可按按笔笔画画排排序序,其其中中也也有有笔笔画画多多少少的的升升序序降降序之分序之分2. 数值型数据的排序数值型数据的排序递递增增排排序序:设设一一组组数数据据为为x1,x2,xn,递递增增排序后可表示为:排序后可表示为:x(1)x(2)x(2)x(n)例:股票数据筛选和排序数据透视表数据透视表(pivot table )1.可以从复杂的数据中提取有用的信息可以从复杂的数据中提取有用的信息2.可可以以对对数数据据表表的的重重要要信信息息按按使使用用者者的的习习惯惯或或分分析要求进行汇总和作图析要求进行汇总和作图3.形成一个符合需要的交叉表形成一个符合需要的交叉表(列联表列联表)4.在在利利用用数数据据透透视视表表时时,数数据据源源表表中中的的首首行行必必须须有列标题有列标题数据透视表数据透视表(用Excel创建数据透视表)第第1步:步:在Excel工作表中建立数据清单第第2步步:选中数据清单中的任意单元格,并选择【数据】菜单中的【数据透视表和数据透视图】第第3步:步:确定数据源区域第第4步步:在【向导3步骤之3】中选择数据透视表的输出位置然后选择【布局】数据透视表数据透视表(用Excel创建数据透视表)第第5步步:在【向导布局】对话框中,依次将”分类变量“拖至左边的“行”区域,上边的“列”区域,将需要汇总的“变量”拖至“数据区域”第第6步步:然后单击【确定】,自动返回【向导3步骤之3】对话框。然后单击【完成】,即可输出数据透视表。第二节第二节 品质数据的整理与显示品质数据的整理与显示一、一、分类数据的整理与图示分类数据的整理与图示二、二、顺序数据的整理与图示顺序数据的整理与图示数据的整理与显示数据的整理与显示(基本问题)1.要弄清所面对的数据类型要弄清所面对的数据类型不同类型的数据,采取不同的处理方式和方法不同类型的数据,采取不同的处理方式和方法2.对分类数据和顺序数据主要是作分类整理对分类数据和顺序数据主要是作分类整理3.对数值型数据则主要是作分组整理对数值型数据则主要是作分组整理4.适适合合于于低低层层次次数数据据的的整整理理和和显显示示方方法法也也适适合合于于高高层层次次的的数数据据;但但适适合合于于高高层层次次数数据据的的整整理和显示方法并不适合于低层次的数据理和显示方法并不适合于低层次的数据分类数据的整理(基本过程)1.列出各类别 2. 2. 计算各类别的频数3. 制作频数分布表4. 用图形显示数据分类分类频数频数比例比例百分比百分比比率比率ABCDE分类数据的整理(可计算的统计量)1.频数频数(frequency) :落在各类别中的数据个数2.比例比例(proportion) :某一类别数据个数占全部数据个数的比值3.百分比百分比(percentage) :将对比的基数作为100而计算的比值4.比率比率(ratio) :不同类别数值个数的比值练习练习 中国名人榜中国名人榜100100强强表表3.2 中国名人中国名人30强职业强职业表表3.2 中国名人中国名人30强职业强职业职业运动员演员歌手导演钢琴家合计划记频数91721130分类数据的图示分类数据的图示条形图条形图(barChart)1.用宽度相同的条形的高度或长短来表示各类别数据的图形2.有单式条形图、复式条形图等形式3.主要用于反映分类数据的频数分布4.绘制时,各类别可以放在纵轴,称为条条形形图图,也可以放在横轴,称为柱柱形形图图(column chart) 分类数据的图示分类数据的图示条形图条形图 (例题分析例题分析)分类数据的图示分类数据的图示对比条形图对比条形图(side-by-side bar chart )1.分类变量在不同时间或不同空间上有多个取值2.对比分类变量的取值在不同时间或不同空间上的差异或变化趋势电脑品牌电脑品牌一季度一季度二季度二季度联想联想256468IBM285397康柏康柏247328戴尔戴尔563688分类数据的图示分类数据的图示对比条形图对比条形图(例题分析)分类数据的图示分类数据的图示帕累托图帕累托图(pareto chart)1.按各类别数据出现的频数多少排序后绘制的柱形图2.主要用于展示分类数据的分布分类数据的图示分类数据的图示饼图饼图(pie Chart)1.也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形2.主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题3.绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比乘以3600确定分类数据的图示分类数据的图示饼图饼图(例题分析例题分析)顺序数据的整理顺序数据的整理(可计算的统计量)1. 累累积积频频数数(cumulative frequencies):各类别频数的逐级累加2. 累累积积频频率率(cumulative percentages):各类别频率(百分比)的逐级累加顺序数据的频数分布表顺序数据的频数分布表(例题分析)【例例】在在一一项项城城市市住住房房问问题题的的研研究究中中,研研究究人人员员在在甲甲乙乙两两个个城城市市各各抽抽样样调调查查300户户,其其中中的的一一个个问问题题是是:“您您对对您您家家庭庭目目前前的的住住房房状状况是否满意?况是否满意?”1非非常常不不满满意意;2不不满满意意;3一一般般;4满满意意;5非常满意。非常满意。甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510 24132225270300 8.0 44.0 75.0 90.0100.0300276168 75 30100.092562510合计合计300100.0顺序数据的频数分布表顺序数据的频数分布表 (例题分析例题分析)乙城市家庭对住房状况评价的频数分布乙城市家庭对住房状况评价的频数分布回答类别回答类别乙城市乙城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2199786438 7.033.026.021.312.7 21120198262300 7.0 40.0 66.0 87.3100.0300279180102 38100.0 93.0 60.0 34.0 12.7合计合计300100.0顺序数据的图示累计频数分布图 (例题分析例题分析)243001322252700100200300400非常不满意不满意一般满意非常满意累积户数(户)(a)向上累积向上累积27616830300750100200300400非常不满意不满意一般满意非常满意累积户数(户)(b)向下累积向下累积甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布环形图环形图(doughnut chart)1.环环形形图图中中间间有有一一个个“空空洞洞”,样样本本或或总总体体中中的每一部分数据用环中的一段表示的每一部分数据用环中的一段表示2.与饼图类似,但又有区别与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例饼图只能显示一个总体各部分所占的比例环环形形图图则则可可以以同同时时绘绘制制多多个个样样本本或或总总体体的的数数据据系列,每一个样本或总体的数据系列为一个环系列,每一个样本或总体的数据系列为一个环3.用于结构比较研究用于结构比较研究 4.用于展示分类和顺序数据用于展示分类和顺序数据环形图环形图 (例题分析)8%36%31%15%7%33%26%21%13%10%非常不满意不满意一般满意非常满意 甲乙两城市家庭对住房状况的评价甲乙两城市家庭对住房状况的评价第三节第三节 数值型数据的整理与展示数值型数据的整理与展示一、一、统计分统计分组组二、变量数列的编制二、变量数列的编制三、三、数值型数据的图示数值型数据的图示统计学原理STATISTICSTHEORY将总体中所有单位按一定的标志分为将总体中所有单位按一定的标志分为性质不同但又有联系的若干部分的过性质不同但又有联系的若干部分的过程程统计分组统计分组统计分组统计分组(classification)统计分组的作用统计分组的作用:总体经过分组,能够突出组与组之间的差异总体经过分组,能够突出组与组之间的差异而抽象掉组内各单位之间的差异,使数据变而抽象掉组内各单位之间的差异,使数据变得条理化,便于进一步分析研究。得条理化,便于进一步分析研究。qq划分社会经济现象的类型划分社会经济现象的类型qq反映社会经济现象的内部结构和比例关系反映社会经济现象的内部结构和比例关系qq揭示社会经济现象之间的相互依存关系揭示社会经济现象之间的相互依存关系选择分选择分组标志组标志确定分确定分组体系组体系总体单总体单位归类位归类科学性:科学性:组间差异组间差异大,组内大,组内差异小。差异小。完备性和互斥性:完备性和互斥性:每个单位均能且每个单位均能且只能归到某个组只能归到某个组中。中。统计分组的程序与原则统计分组的程序与原则统计学原理STATISTICSTHEORY对大学生月生活对大学生月生活费支出情况进行费支出情况进行分组研究:分组研究:按家庭收入水平按家庭收入水平分组;分组;按城乡分组;按城乡分组;按性别分组;按性别分组;按年龄分组。按年龄分组。?对父母亲下岗情对父母亲下岗情况进行分组研究:况进行分组研究:单亲下岗;单亲下岗;双亲下岗;双亲下岗;双亲在岗。双亲在岗。不符合不符合科学性科学性不符合不符合完备性完备性城乡区别城乡区别离退休离退休是否健在是否健在?单值数列单值数列指每个组值只用一个具体的指每个组值只用一个具体的变量值表现的数列变量值表现的数列同时同时同时同时具备具备具备具备变量数列的编制变量数列的编制变量是离散变量变量是离散变量变量的不同取值个数较少变量的不同取值个数较少编制条件编制条件:【例例例例】己知某车间有己知某车间有24名工人,他们的日产量(件)名工人,他们的日产量(件)分别是:分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。要求根据以上资料编制变量数列。日产量(件)日产量(件)日产量(件)日产量(件)X X工人数(人工人数(人工人数(人工人数(人) ) f20202121222223232424252526263 35 56 64 43 32 21 1合计合计合计合计2424编制结果如下:编制结果如下:组距数列组距数列指每个组的变量值用一个区指每个组的变量值用一个区间来表现的变量数列间来表现的变量数列变量是连续变量;变量是连续变量;或:或:总体单位数较多,变量不同总体单位数较多,变量不同取值个数也较多的离散变量。取值个数也较多的离散变量。 编制条件编制条件:变量值变动区间的长度相等变量值变动区间的长度相等变量值变动区间的长度不完全相等变量值变动区间的长度不完全相等等距数列等距数列异距数列异距数列统计学原理STATISTICSTHEORY例:某工业企业例:某工业企业100名职工按工资额分组名职工按工资额分组 相关概念相关概念指每组两端表示各组界限的变量值,指每组两端表示各组界限的变量值,各组的最小值为各组的最小值为下限下限,最大值为,最大值为上限上限组限组限每组变量值变动区间的长度,为上每组变量值变动区间的长度,为上下限之差下限之差组距组距每组变量取值范围的中点数值每组变量取值范围的中点数值 组中值组中值组中值=总体中最大标志值和最小标志值之差总体中最大标志值和最小标志值之差全距全距统计学原理STATISTICSTHEORY某地区某地区100个百货商店个百货商店月销售额与流通费用情况月销售额与流通费用情况销售额(万销售额(万元)元)商店数商店数(个)(个)每百元商品销售每百元商品销售额中支付的流通额中支付的流通费(元)费(元)50以下以下50100100200200300300以上以上102030251514.211.410.19.28.5上组限上组限U下组限下组限L如:组距如:组距d=U-L=100-50=50(万元)(万元)如:组中值如:组中值x=(U+L)/2 =(100+200)/2=150(万元)(万元)编制等距数列编制等距数列适用于总体单位的标志值适用于总体单位的标志值变动比较均匀的情况变动比较均匀的情况实例实例己知某地区某年己知某地区某年己知某地区某年己知某地区某年5050个商店商品销售额的资料如下(单个商店商品销售额的资料如下(单个商店商品销售额的资料如下(单个商店商品销售额的资料如下(单位:百万元):位:百万元):位:百万元):位:百万元): 7.4 12.6 29.0 2.0 12.4 7.0 14.8 17.5 15.0 18.2 7.4 12.6 29.0 2.0 12.4 7.0 14.8 17.5 15.0 18.2 18.7 15.5 12.8 26.0 17.3 8.3 14.7 12.0 3.5 6.8 18.7 15.5 12.8 26.0 17.3 8.3 14.7 12.0 3.5 6.8 25.0 19.3 6.4 4.0 11.9 8.5 13.2 14.5 17.1 15.6 25.0 19.3 6.4 4.0 11.9 8.5 13.2 14.5 17.1 15.6 13.4 4.5 9.5 20.0 15.7 6.0 11.4 23.0 14.2 16.7 13.4 4.5 9.5 20.0 15.7 6.0 11.4 23.0 14.2 16.7 21.0 16.0 13.6 10.0 13.9 5.0 5.8 10.5 16.3 22.021.0 16.0 13.6 10.0 13.9 5.0 5.8 10.5 16.3 22.0要求编制组距数列。要求编制组距数列。编制步骤:编制步骤:求变异全距求变异全距确定组距及组数确定组距及组数确定组距的原则:确定组距的原则:q要能区分各组的性质差异要能区分各组的性质差异q要能反映总体资料的分布特征要能反映总体资料的分布特征q为方便计算,尽可能为为方便计算,尽可能为5 5或或1010的整数倍的整数倍R组距组距(d) 组数(组数(m)编制等距数列编制等距数列计算组数(组数不宜过多,也不宜太少)计算组数(组数不宜过多,也不宜太少)上例中,取上例中,取d=5d=5,则有,则有编制等距数列编制等距数列(当(当 的结果为整数时)的结果为整数时)(当(当 的结果为小数时)的结果为小数时)确定组限确定组限q对于离散变量,相邻组组限可以对于离散变量,相邻组组限可以间断间断,也,也可可重叠重叠;q对于连续变量,相邻组组限对于连续变量,相邻组组限必须重叠必须重叠;q符合符合“上组限不计入上组限不计入”原则;原则;q首末两组可使用首末两组可使用“以下以下”及及“以以上上”的开口组。的开口组。组限的表示方法组限的表示方法计算次数计算次数编编制制结结果:果: 销售额(百销售额(百万元)万元)组中值组中值商店数商店数5以下以下51010151520202525以上以上2.57.512.517.522.527.5410161343合计合计50分组划记法分组划记法茎叶图法茎叶图法(5+(5-5))/2=2.5(25+(25+5))/2=27.5开口式组距数列组中值的计算:开口式组距数列组中值的计算: 首组假定下限首组上限相邻组组距首组假定下限首组上限相邻组组距 末组假定上限末组下限相邻组组距末组假定上限末组下限相邻组组距先计算开口组的假定上、下限:先计算开口组的假定上、下限: 因此有:因此有:首组首组组中值组中值末组末组组中值组中值编制频数分布的基本思路编制频数分布的基本思路2u确定组数Sturges经验公式:其中k为数据的个数,对结果采用四舍五入的办法取整数即可。u确定组距(classwidth)组距=(最大值-最小值)/组数525248485454616147473636515158584343393969694747494968684343474759595454686846465353343428282020383841417373474751517878例某汽车公司1月全国30家经销单位汽车销售情况u根据上表的资料,对这根据上表的资料,对这30家经销单位按销量分组,家经销单位按销量分组,编制频数分布表编制频数分布表分析分析u 1、确定组数确定组数: u 2、确定组距确定组距 : u 3、确定组限确定组限u 4、编制频数分布表编制频数分布表编制频数分布表销量销量(量)(量)组中值组中值(辆)(辆)频数频数(家)(家)频率频率(% %)累计累计(家)(家)累计累计(% %)2029303940495059606970797924.524.534.534.544.544.554.554.564.564.574.574.52 24 410108 84 42 26.76.713.313.333.333.326.726.713.313.36.76.72 26 616162424282830306.76.720.020.053.353.380.080.093.393.3100.0100.03030100.0100.0再次强调:确定组距的原则:确定组距的原则:q要能区分各组的性质差异要能区分各组的性质差异q要能反映总体资料的分布特征要能反映总体资料的分布特征q为方便计算,尽可能为为方便计算,尽可能为5 5或或1010的整数倍的整数倍统计学原理STATISTICSTHEORY频率频率各组单位数占总体单位总数的比重各组单位数占总体单位总数的比重累计次数(频率)累计次数(频率) 从变量值从变量值低低的组开始,将各组次数的组开始,将各组次数(频率)逐次向变量值(频率)逐次向变量值高高的组累计,的组累计, 说明某一组说明某一组上限以下各组的累计次数上限以下各组的累计次数(频率)(频率)。向向上上累累计计向向下下累累计计 从变量值从变量值高高的组开始,将各组次数的组开始,将各组次数(频率)逐次向变量值(频率)逐次向变量值低低的组累计,的组累计,说明某一组说明某一组下限以上各组的累计次数下限以上各组的累计次数(频率)(频率)。统计学原理STATISTICSTHEORY有效有效数据数据频数频数频率频率有效有效频率频率累计累计频率频率约约2/3的人身高不超过的人身高不超过165cm 销售额销售额(百万元)(百万元)商店商店数数频率频率()累计次数累计次数累计频率累计频率()向上向上累计累计向上向上累计累计5以下以下51010151520202525以上以上41016134382032268641430434750828608694100合计合计50100 销售额销售额(百万元)(百万元)商店商店数数频率频率()累计次数累计次数累计频率累计频率()向上向上累计累计向下向下累计累计向上向上累计累计向下向下累计累计5以下以下51010151520202525以上以上410161343820322686414304347505046362073828608694100100927240146合计合计50100数值型数据的图示Excel分组数据分组数据直方图和折线图直方图和折线图分组数据分组数据直方图直方图(histogram)1.用于展示分组数据分布的一种图形用于展示分组数据分布的一种图形2.用矩形的宽度和高度来表示频数分布用矩形的宽度和高度来表示频数分布3.在在直直角角坐坐标标中中,用用横横轴轴表表示示数数据据分分组组,纵纵轴轴表表示示频频数数或或频频率率,各各组组与与相相应应的的频频数数就就形成了一个矩形,即直方图形成了一个矩形,即直方图【 例例例例 】 某某 电电脑脑 公公 司司 20052005年年 前前 四四 个个 月月各各 天天 的的 销销 售售量量数数据据( (单单位位:台台) )。试试对对数数据进行分组据进行分组等距分组表等距分组表(上下组限重叠)分组数据的图示分组数据的图示(直方图的绘制)140140 150150210210某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图我我一一眼眼就就看看出出来来了了,销销售售量量在在 170170 180180之之间间的的天天数数最最多多! !190190 200200180180160160 170170频频频频频频数数数数数数( (天天天天天天) )25252020151510105 53030220220 230230 240240分组数据分组数据直方图直方图(直方图与条形图的区别)1.条条形形图图是是用用条条形形的的长长度度(横横置置时时)表表示示各各类类别别频频数数的多少,其宽度的多少,其宽度(表示类别表示类别)则是固定的则是固定的2.直直方方图图矩矩形形的的高高度度表表示示每每一一组组的的频频数数或或百百分分比比,宽度则表示各组的组距,其高度与宽度均有意义宽度则表示各组的组距,其高度与宽度均有意义3.直直方方图图的的各各矩矩形形通通常常是是连连续续排排列列,条条形形图图则则是是分分开排列开排列4.条条形形图图主主要要用用于于展展示示分分类类数数据据,直直方方图图则则主主要要用用于展示数值型数据于展示数值型数据统计学原理STATISTICSTHEORY直方图直方图条形图条形图数值型数据的图示STATISTICASTATISTICA未未分组数据分组数据茎叶茎叶图和箱线图图和箱线图未分组数据未分组数据茎叶图茎叶图(stem-and-leaf display)茎叶图:于上世纪茎叶图:于上世纪60年代由美国普林斯年代由美国普林斯顿大学教授顿大学教授John Tukey提出提出茎叶图的茎叶图的“茎茎”是指各组数据中的主干是指各组数据中的主干数字,数字,“叶叶”是指各组数据中的细化数是指各组数据中的细化数字字未分组数据未分组数据茎叶图茎叶图(例题分析)某电脑公司销售量分布的茎叶图某电脑公司销售量分布的茎叶图某电脑公司销售量分布的茎叶图某电脑公司销售量分布的茎叶图未分组数据未分组数据箱线图箱线图(box plot)1.用于显示未分组的原始数据的分布2.由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成3.绘制方法首先找出一组数据的5个特征值,即最最大大值值、最最小小值值、中中位位数数Me和两个四四分分位位数数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接该箱线图也称为该箱线图也称为Median/Quart./Range箱线图箱线图未分组数据未分组数据多批数据箱线图多批数据箱线图【例例例例】 从从某某大大学学经经济济管管理理专专业业二二年年级级学学生生中中随随机机抽抽取取11人人,对对8门门主主要要课课程程的的考考试试成成绩绩进进行行调调查查,所所得得结结果果如如表表。试试绘绘制制各各科科考考试试成成绩绩的的批批比比较较箱箱线线图图,并并分分析析各各科科考考试试成成绩绩的的分分布布特特征征11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分组数据未分组数据多批数据箱线图多批数据箱线图8 8门课程考试成绩的门课程考试成绩的门课程考试成绩的门课程考试成绩的Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图1111名学生名学生名学生名学生8 8门课程考试成绩的门课程考试成绩的门课程考试成绩的门课程考试成绩的Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图min-max25%-75%median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据未分组数据多批数据箱线图多批数据箱线图数值型数据的图示时间序列时间序列数据数据线图线图Excel时间序列数据时间序列数据线图线图(line plot)1.表示时间序列数据趋势的图形表示时间序列数据趋势的图形2. 时间一般绘在横轴,数据绘在纵轴时间一般绘在横轴,数据绘在纵轴3. 图形的长宽比例大致为图形的长宽比例大致为10 : 74. 一一般般情情况况下下,纵纵轴轴数数据据下下端端应应从从“0”开开始始,以以便便于于比比较较。数数据据与与“0”之之间间的的间间距距过过大大时时,可可以采取折断的符号将纵轴折断以采取折断的符号将纵轴折断时间序列数据时间序列数据线图线图【例例例例】我国我国1991199120032003年城乡居民家年城乡居民家庭的人均收入庭的人均收入数据如表。试数据如表。试绘制线图绘制线图¥ 19912003年城乡居民家庭人均收入年城乡居民家庭人均收入年份年份城镇居民城镇居民(元元)农村居民农村居民(元元)19911992199319941995199619971998199920002001200220031700.62026.62577.43496.24283.04838.95160.35425.15854.06280.06859.07702.88472.2 708.6 784.0 921.61221.01577.71926.12091.12162.02210.32253.42366.42475.62622.2时间序列数据时间序列数据线图线图数据类型及图示数据类型及图示数据类型数据类型品质数据品质数据数值型数据数值型数据汇总表汇总表原始数据原始数据分组数据分组数据时序数据时序数据多元数据多元数据条形图条形图条形图条形图饼图饼图饼图饼图茎叶图茎叶图茎叶图茎叶图箱线图箱线图箱线图箱线图直方图直方图直方图直方图折线图折线图折线图折线图线图线图线图线图散点图散点图散点图散点图气泡图气泡图气泡图气泡图雷达图雷达图雷达图雷达图环形图环形图环形图环形图第四节第四节 合理使用统计图、表合理使用统计图、表一、鉴别图形优劣的准则一、鉴别图形优劣的准则二、统计表的设计二、统计表的设计统计表的结构20022003年城镇居民家庭抽样调查资料年城镇居民家庭抽样调查资料项目项目单位单位2002年年 2003年年 调查户数调查户数 平均每户家庭人口平均每户家庭人口 平均每户就业人口平均每户就业人口 平均每户就业面平均每户就业面 平均一名就业者负担人数平均一名就业者负担人数 平均每人全部年收入平均每人全部年收入 可支配收入可支配收入 平均每人消费性支出平均每人消费性支出户户人人人人%人人元元元元元元453173.041.5851.971.928177.407702.806029.8848028 3.01 1.58 52.49 1.91 9061.22 8472.20 6510.94资料来源:中国统计年鉴2004,中国统计出版社,2004,第359页。注:本表为城市和县城的城镇居民家庭抽样调查资料。行行行行标标标标题题题题列列列列标标标标题题题题数数数数字字字字资资资资料料料料表头表头表头表头附附附附加加加加1.一张好的图表应包括以下基本特征显示数据让读者把注意力集中在图表的内容上,而不是制作图表的程序上避免歪曲强调数据之间的比较服务于一个明确的目的有对图表的统计描述和文字说明2.5种鉴别图表优劣的准则:一张好的图表应当精心设计、有助于洞察问题的实质使复杂的观点得到简明、确切、高效的阐述能在最短的时间内以最少的笔墨给读者提供最大量的信息是多维的表述数据的真实情况鉴别图表优劣的准则鉴别图表优劣的准则1.合理安排统计表的结构2.总标题内容应满足3W 要求3.数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明4.表中的上下两条横线一般用粗线,其他线用细线5.通常情况下,统计表的左右两边不封口6.表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一7.对于没有数字的表格单元,一般用“”表示8.必要时可在表的下方加上注释统计表的设计练习练习 3636家超市销售额家超市销售额某地某地36家超市某月的商品销售额(单位:万元)如表家超市某月的商品销售额(单位:万元)如表 要求:编制频数、频率、累计分布表要求:编制频数、频率、累计分布表 41.225.529.547.18.834.430.653.540.046.236.965.337.857.353.645.133.044.725.028.894.634.030.123.744.078.254.542.436.037.657.049.039.642.036.055.3表表表表 3636家超市销售额家超市销售额家超市销售额家超市销售额统计学原理STATISTICSTHEORY可能答案一可能答案一销售额(万)销售额(万)组中值组中值频数(家)频数(家)频率(频率(% %)累计(家)累计(家)较小较小累计(家)累计(家)较大较大09101920293039404950596069697070797980808989909099995 51515252535354545555565657575858595951 10 05 5111110106 61 11 10 01 12.82.80.00.013.913.930.630.627.827.816.716.72.82.82.82.80.00.02.82.81 11 16 61717272733333434353535353636363635353535303019199 93 32 21 11 13636100.0100.0表表表表3636家超市销售额家超市销售额家超市销售额家超市销售额频数表频数表频数表频数表统计学原理STATISTICSTHEORY可能答可能答案二案二销售额(万)销售额(万)组中值组中值频数(家)频数(家)频率(频率(% %)累计(家)累计(家)较小较小累计(家)累计(家)较大较大01010202030304040505060607070707080808080909090901001005 51515252535354545555565657575858595951 10 05 5111110106 61 11 10 01 12.82.80.00.013.913.930.630.627.827.816.716.72.82.82.82.80.00.02.82.81 11 16 61717272733333434353535353636363635353535303019199 93 32 21 11 13636100.0100.0表表表表 3636家超市销售额频数表家超市销售额频数表家超市销售额频数表家超市销售额频数表统计学原理STATISTICSTHEORY答答案案销售额(万)销售额(万)组中值组中值频数(家)频数(家)频率(频率(% %)20以下以下203030404050506060以上以上25253535454555551 15 5111110106 63 32.82.813.913.930.630.627.827.816.716.78.48.43636100.0100.0表表表表 3636家超市销售额频数表家超市销售额频数表家超市销售额频数表家超市销售额频数表15651某班40名学生的统计学期末考试成绩如下:72768354698876829378746685756051577771798481878776637471897167787283809159727865(1)试将其编制成组距数列,绘制频数分布表和频率分布表;(2)根据你所编制的频数分布绘制直方图和折线图;(3)根据你所编制的频率分布绘制直方图;课课 后后 练练 习习2、以下是国外的一道统计试题,请完成。Thedatabelowshowthevalueoforders($000s)obtainedby50salesmenduringaparticularweek:6.05.93.52.98.77.97.15.05.23.93.76.15.84.15.86.43.84.95.75.56.94.04.85.14.35.46.85.96.95.42.44.97.24.26.25.83.86.25.76.83.45.05.25.33.03.63.85.84.93.7a.Arrangethesedataasafrequencydistribution(about7classeswillbesufficient);b.Presentthefrequencydistributionasahistogram.2012福布斯中国名人榜福布斯中国名人榜综合排名姓名职业综合排名姓名职业1周杰伦歌手、演员16王力宏歌手、演员2刘德华演员、歌手17罗志祥歌手、演员3范冰冰演员18甄子丹演员4王菲歌手19舒淇演员5李娜运动员20李冰冰演员6赵本山演员21郭富城歌手、演员7蔡依林歌手22李连杰演员8姚明运动员23黄晓明歌手、演员9成龙演员24古天乐演员10林志玲演员、模特25张柏芝演员11陈奕迅歌手、演员26孙红雷演员12谢霆锋演员、歌手27梁朝伟演员13杨幂演员、歌手28张靓颖歌手14章子怡演员29李宇春歌手、演员15张学友歌手30周迅演员return统计学原理STATISTICSTHEORY各队获得欧洲冠军杯冠军次数各队获得欧洲冠军杯冠军次数次数次数球队球队9皇家马德里皇家马德里7AC米兰米兰5利物浦利物浦4阿贾克斯阿贾克斯,拜仁慕尼黑拜仁慕尼黑,巴塞罗那巴塞罗那3曼彻斯特联曼彻斯特联,国际米兰国际米兰2本菲卡本菲卡,诺丁汉森林诺丁汉森林,尤文图斯尤文图斯,波尔图波尔图1格拉斯哥凯尔特人格拉斯哥凯尔特人,费耶诺德费耶诺德,阿斯顿维拉阿斯顿维拉,汉堡汉堡,布加勒斯特星布加勒斯特星,埃因霍温埃因霍温,贝尔格莱德贝尔格莱德红星红星,马赛马赛,多特蒙德多特蒙德return
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号