资源预览内容
第1页 / 共48页
第2页 / 共48页
第3页 / 共48页
第4页 / 共48页
第5页 / 共48页
第6页 / 共48页
第7页 / 共48页
第8页 / 共48页
第9页 / 共48页
第10页 / 共48页
亲,该文档总共48页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
定量资料的统计分析定量资料的统计分析中央财经大学社会学系中央财经大学社会学系 李国武李国武第十一讲:定量资料的统计分析问卷调查方法的三要素问卷调查方法的三要素l抽样抽样l问卷问卷l统计分析统计分析第十一讲:定量资料的统计分析本章主要内容本章主要内容l主要包括对原始数据的整理、录入,以及单主要包括对原始数据的整理、录入,以及单变量分析、双变量分析和多变量分析。变量分析、双变量分析和多变量分析。第十一讲:定量资料的统计分析电脑在统计分析中的运用电脑在统计分析中的运用现在,定量资料的统计分析通常是借助电脑现在,定量资料的统计分析通常是借助电脑和特定的软件来完成。其中比较常用的一种和特定的软件来完成。其中比较常用的一种统计分析软件是统计分析软件是SPSS(Statistical Product and Service Solutions),但是需要一定的统但是需要一定的统计学知识,才能更好地理解和应用计学知识,才能更好地理解和应用SPSS。我们在这一讲只是做一个初步的介绍,在接我们在这一讲只是做一个初步的介绍,在接下来更专门的课程里,我们还会深入具体地下来更专门的课程里,我们还会深入具体地学习这些知识,比如社会统计学和学习这些知识,比如社会统计学和SPSS与统与统计分析等课程。计分析等课程。 第十一讲:定量资料的统计分析定量资料的分析定量资料的分析l1、资料的整理与录入、资料的整理与录入l2、单变量统计分析、单变量统计分析l3、双变量统计分析、双变量统计分析l4、多变量统计分析、多变量统计分析第十一讲:定量资料的统计分析1、资料的整理与录入、资料的整理与录入l1.1 资料的审核资料的审核l1.2 资料的编码资料的编码l1.3 数据录入数据录入l1.4 数据清理数据清理第十一讲:定量资料的统计分析1.1 资料的审核资料的审核l资资料料的的审审核核是是指指研研究究者者对对所所收收集集的的原原始始数数据据资资料料(主主要要问问卷卷)进进行行初初步步的的审审阅阅,校校正正填填错错、误误填填的的答答案案,剔剔出出乱乱填填、空空白白和和严严重重缺缺答的废卷。答的废卷。l其其目目的的是是为为了了使使所所获获得得的的原原始始资资料料具具有有较较好好的的准准确确性性、完完整整性性和和真真实实性性,从从而而为为后后续续资资料整理录入与统计分析工作打下较好的基础。料整理录入与统计分析工作打下较好的基础。第十一讲:定量资料的统计分析1.1 资料的审核资料的审核l资料的审核包括两方面的内容:一是检查出资料的审核包括两方面的内容:一是检查出问卷资料中的问题;二是重新向被调查者核问卷资料中的问题;二是重新向被调查者核实。实。l审核的两种方式:实地审核和集中审核。审核的两种方式:实地审核和集中审核。第十一讲:定量资料的统计分析1.2 资料的编码资料的编码l为了使数据变成机读格式(为了使数据变成机读格式(machine-readable form),),必须对问卷中的变量和答必须对问卷中的变量和答案编码(案编码(coding process)。)。l编码就是给每个问题及答案赋予一个数字作编码就是给每个问题及答案赋予一个数字作为它的代码。为它的代码。第十一讲:定量资料的统计分析1.2 资料的编码资料的编码 栏码栏码 答案数码答案数码A001、您的年龄:您的年龄:28岁岁 1-2 28A002、您的性别您的性别:(:(1)男)男 (2)女)女 3 1A003、您的文化程度:您的文化程度: 4 4(1)小学以下)小学以下 (2)初中)初中 (3)高中或中专)高中或中专 (4)大专以上)大专以上 A004、您每月的收入为多少?您每月的收入为多少?元元 5-8 0999第十一讲:定量资料的统计分析1.2 资料的编码资料的编码l编码包括问题的编码和答案的编码。编码包括问题的编码和答案的编码。l编码有两种做法:一种预编码;另一种事后编码有两种做法:一种预编码;另一种事后编码。编码。l定序变量的编码要注意方向性。(教材定序变量的编码要注意方向性。(教材265页)页)第十一讲:定量资料的统计分析1.2 资料的编码资料的编码表格题或矩阵题的编码表格题或矩阵题的编码lA61-63 您觉得下列污染在你所在的城市是您觉得下列污染在你所在的城市是否严重?(请在每一行适当的格中打勾)否严重?(请在每一行适当的格中打勾)很严重很严重 比较严重比较严重不太严重不太严重 不严重不严重 不知道不知道1.灰尘灰尘2.噪音噪音3.污水污水第十一讲:定量资料的统计分析1.2 资料的编码资料的编码多选题的编码多选题的编码A11-16.您在闲暇时间的主要休闲方式是哪些您在闲暇时间的主要休闲方式是哪些?(可多选)?(可多选)A、逛逛街街 B、看看书书 C、看看电电视视 D、看看电电影影 E、体育运动体育运动 F、其他其他第十一讲:定量资料的统计分析1.2 资料的编码资料的编码l栏码的分配栏码的分配l指定每个问题的编码值在整个数据文件中所指定每个问题的编码值在整个数据文件中所处的位置。(预编码和事后编码)处的位置。(预编码和事后编码)l栏码的指定方法是从问卷的第一个项目或问栏码的指定方法是从问卷的第一个项目或问题开始,先根据每一个项目或问题答案数码题开始,先根据每一个项目或问题答案数码的位数,来确定该项目或问题所占有的宽度,的位数,来确定该项目或问题所占有的宽度,再根据前后顺序来确定其在整个数据排列中再根据前后顺序来确定其在整个数据排列中所处的位置,这样从头依次往后排列。所处的位置,这样从头依次往后排列。第十一讲:定量资料的统计分析1.2 资料的编码资料的编码l编码手册编码手册l为了减少编码工作中的误差,保证编码数据为了减少编码工作中的误差,保证编码数据的质量和一致性,研究者需要编制一份编码的质量和一致性,研究者需要编制一份编码手册发给编码员,每个编码员按照编码手册手册发给编码员,每个编码员按照编码手册的要求,统一进行编码。的要求,统一进行编码。l在编码手册中,研究者将编码的项目和问题在编码手册中,研究者将编码的项目和问题一一列出,逐一规定它们的代码、宽度、栏一一列出,逐一规定它们的代码、宽度、栏码、简要名称、答案赋值方式及其它特殊规码、简要名称、答案赋值方式及其它特殊规定等等。定等等。l编码手册的格式要规范统一,指示要明确,编码手册的格式要规范统一,指示要明确,且容易理解,便于操作。且容易理解,便于操作。第十一讲:定量资料的统计分析1.2 资料的编码资料的编码l 编码手册(节选)编码手册(节选)项目项目名称名称变变量量名名含义含义宽宽度度栏码栏码 答案赋值答案赋值区区V城区城区111=海淀海淀2=朝阳朝阳3=丰台丰台4=西城西城5=崇文崇文6=宣武宣武7=东城东城8=通州通州个案号个案号ID个案个案号号42-5根据问卷编号填写根据问卷编号填写问题问题1A1性别性别161=男男 2=女女问题问题2A2年龄年龄27-8按实际年龄填写按实际年龄填写大于大于99岁的填岁的填99第十一讲:定量资料的统计分析1.3 数据录入数据录入l数据录入的方式:一种是直接从问卷上将编数据录入的方式:一种是直接从问卷上将编好码的数据输入计算机;另一种是先将问卷好码的数据输入计算机;另一种是先将问卷上编好码的数据转录到专门的登录表上,然上编好码的数据转录到专门的登录表上,然后再从登录表上将数据输入计算机。后再从登录表上将数据输入计算机。l数据登录表(见教材数据登录表(见教材276页)页)l数据录入的软件有很多,且大多可以相互转数据录入的软件有很多,且大多可以相互转换。如换。如POXFRO,EXCEL,SPSS。l我们介绍直接用我们介绍直接用SPSS录入。录入。第十一讲:定量资料的统计分析1.3 数据录入数据录入l认识认识SPPS软件软件l数据编辑器(数据编辑器(DATA)第十一讲:定量资料的统计分析1.3 数据录入数据录入lSPSS中的变量及其定义中的变量及其定义l变量属性有四个:变量名、变量类型、变量变量属性有四个:变量名、变量类型、变量标签、变量长度。标签、变量长度。l变量类型:数值型、字符型和日期型。一般变量类型:数值型、字符型和日期型。一般系统默认为标准数值型(系统默认为标准数值型(Numeric)。)。l变量标签:包括变量标签(变量标签:包括变量标签(variable labels)和变量值的标签(和变量值的标签(value labels)。)。第十一讲:定量资料的统计分析1.3 数据录入数据录入l显示如何定义一个变量。显示如何定义一个变量。l定义好问卷中所有的变量后即可录入数据了。定义好问卷中所有的变量后即可录入数据了。第十一讲:定量资料的统计分析1.4 数据清理数据清理l清查录入中的错误清查录入中的错误l(1)有效范围清理)有效范围清理l利用利用frequency命令命令l(2)逻辑一致性清理逻辑一致性清理l相倚性问题中,利用相倚性问题中,利用if命令选择案例,来看命令选择案例,来看逻辑不一致的情况。逻辑不一致的情况。l(3)数据质量抽查数据质量抽查l随机抽查的方法随机抽查的方法第十一讲:定量资料的统计分析建立新变量建立新变量lCompute命令命令lRecode命令命令第十一讲:定量资料的统计分析数据文件的整理数据文件的整理l排序(排序(sort;rank)l置换(置换(transpose)l拆分(拆分(spit)与合并(与合并(merge)l分类与汇总(分类与汇总(aggregate)l加权(加权(weight case)l选择分析变量(选择分析变量(select case)第十一讲:定量资料的统计分析2、单变量统计分析、单变量统计分析l因为以下内容需要统计学知识,所以这里只因为以下内容需要统计学知识,所以这里只作初步介绍。作初步介绍。l单变量统计分析(单变量统计分析(univariate analysis)可以可以分为两个大的方面,既描述统计和推论统计。分为两个大的方面,既描述统计和推论统计。描述统计的主要目的在于用最简单的概括形描述统计的主要目的在于用最简单的概括形式反映出大量数据所容纳的基本信息,主要式反映出大量数据所容纳的基本信息,主要包括集中趋势分析、离散趋势分析。推论统包括集中趋势分析、离散趋势分析。推论统计的主要目的是用样本中所得到的数据资料计的主要目的是用样本中所得到的数据资料来推断总体的情况,它主要包括区间估计和来推断总体的情况,它主要包括区间估计和假设检验。假设检验。第十一讲:定量资料的统计分析单变量统计分析单变量统计分析l l l要区分两种变量:连续(要区分两种变量:连续(continuous)变量变量和离散(和离散(discrete)变量变量l 单变量统计分析单变量统计分析统计描述统计描述统计推论统计推论集中趋势分析集中趋势分析离散趋势分析离散趋势分析参数估计参数估计假设检验假设检验第十一讲:定量资料的统计分析统计学上两个最重要的值统计学上两个最重要的值l统计学上最基础最重要的两个值是平均值和统计学上最基础最重要的两个值是平均值和差异。差异。第十一讲:定量资料的统计分析2、单变量统计分析、单变量统计分析l2.1 单变量的统计描述单变量的统计描述l2.2 单变量的统计推断单变量的统计推断第十一讲:定量资料的统计分析2.1 单变量的统计描述单变量的统计描述l1、集中趋势分析、集中趋势分析: central tendencyl集中量数分析指的是用一个典型值或代表值集中量数分析指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。组数据向这个典型值集中的情况。l最常用的有算术平均数(均值)、中位数最常用的有算术平均数(均值)、中位数(median)、)、众值(众值(modal)。)。l我们只介绍使用最多的均值(我们只介绍使用最多的均值(mean)。)。l总体各单位数值之和除以总体单位数目之商。总体各单位数值之和除以总体单位数目之商。第十一讲:定量资料的统计分析2.1 单变量的统计描述单变量的统计描述l2、离散趋势分析:、离散趋势分析:dispersion tendencyl指的是用一个特别的数值来反映一组数据相指的是用一个特别的数值来反映一组数据相互之间的离散程度。互之间的离散程度。l常见的离散量数统计量有全距(常见的离散量数统计量有全距(range)、)、标准差(标准差(standard deviation)、)、异众比率、异众比率、四分位差(四分位差(interquartile range)等。等。l最常用的是标准差。最常用的是标准差。l一组数据对其平均数的偏差平方的算术平均一组数据对其平均数的偏差平方的算术平均数的平方根。数的平方根。第十一讲:定量资料的统计分析2.1 单变量的统计描述单变量的统计描述l用用SPSS来计算单变量的频数、平均值和标准来计算单变量的频数、平均值和标准差。差。l用图形的方式来表示频数。用图形的方式来表示频数。第十一讲:定量资料的统计分析2.2 单变量的统计推断单变量的统计推断l统计推论就是利用样本的统计值对总体的参统计推论就是利用样本的统计值对总体的参数值进行估计的方法。数值进行估计的方法。l统计推论的内容主要包括两个方面:一是区统计推论的内容主要包括两个方面:一是区间估计,二是假设检验。间估计,二是假设检验。第十一讲:定量资料的统计分析区间估计区间估计l区间估计的实质就是在一定的置信度下,用区间估计的实质就是在一定的置信度下,用样本统计值的某个范围(置信区间)来估计样本统计值的某个范围(置信区间)来估计总体的参数值。范围越大,估计的精确度越总体的参数值。范围越大,估计的精确度越低,把握越大;范围越小,精确性程度越高,低,把握越大;范围越小,精确性程度越高,把握越小。把握越小。l总体均值的区间估计公式为总体均值的区间估计公式为:l总体百分数的区间估计公式为:总体百分数的区间估计公式为:l利用利用SPSS的的mean命令做区间估计。命令做区间估计。第十一讲:定量资料的统计分析假设检验的含义假设检验的含义l假设检验(假设检验(hypotheses testing) ,实际上就,实际上就是先对总体的某一参数作出假设,然后用样是先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以决定假设是否为本的统计量去进行验证,以决定假设是否为总体所接受。总体所接受。l思考样本和总体的关系。思考样本和总体的关系。第十一讲:定量资料的统计分析小概率原理小概率原理l假设检验依据的是小概率原理。包含两假设检验依据的是小概率原理。包含两个方面:一、小概率事件在一次观察中个方面:一、小概率事件在一次观察中是不可能出现的。二、如果在一次观察是不可能出现的。二、如果在一次观察中出现了小概率事件,那么,合理的想中出现了小概率事件,那么,合理的想法是,否定原有事件具有小概率的说法法是,否定原有事件具有小概率的说法(或假设)。(或假设)。第十一讲:定量资料的统计分析假设检验的原理假设检验的原理l就假设检验而言,如果在原假设成立的就假设检验而言,如果在原假设成立的条件下,根据从总体中随机抽取的样本条件下,根据从总体中随机抽取的样本计算的某个(或某几个)统计量发生的计算的某个(或某几个)统计量发生的可能性很小可能性很小(P0.05),),在一次抽样观察中备择假设没有发生,在一次抽样观察中备择假设没有发生,那么就不能拒绝原假设。那么就不能拒绝原假设。第十一讲:定量资料的统计分析假设检验的原理假设检验的原理l在假设检验中,小概率事件,指的就是在假设检验中,小概率事件,指的就是所用统计量,在原假设情况下,是否是所用统计量,在原假设情况下,是否是小概率事件。小概率事件。l显著性水平就是指在原假设成立条件下,显著性水平就是指在原假设成立条件下,统计检验中所规定的小概率的标准。统计检验中所规定的小概率的标准。l如果在原假设成立条件下,根据随机样如果在原假设成立条件下,根据随机样本的数据计算的统计量发生的概率小于本的数据计算的统计量发生的概率小于显著性水平,就意味着在一次观察中小显著性水平,就意味着在一次观察中小概率事件发生,则具有统计显著性。概率事件发生,则具有统计显著性。第十一讲:定量资料的统计分析进一步的理解进一步的理解l一般来说,原假设表示的是总体之间某一般来说,原假设表示的是总体之间某个变量的均值(成数)没有差异或两变个变量的均值(成数)没有差异或两变量在总体中是相互独立的(没有关系)。量在总体中是相互独立的(没有关系)。l当被假设的独立的两个变量在总体和样当被假设的独立的两个变量在总体和样本中表现出差异时,我们可以用两种方本中表现出差异时,我们可以用两种方式来解释这样的差异式来解释这样的差异:1)可以归因于样)可以归因于样本没有代表性(即抽样误差造成的);本没有代表性(即抽样误差造成的);2)可以拒绝变量之间独立性的假设(即)可以拒绝变量之间独立性的假设(即变量之间存在关系)。变量之间存在关系)。第十一讲:定量资料的统计分析进一步的理解进一步的理解l因此,从样本资料观察到的关系,其统计显著因此,从样本资料观察到的关系,其统计显著性通常用概率表示。显著性在性通常用概率表示。显著性在0.05的水平的水平(P显显著性水平,则接受原假设;否则,拒绝原著性水平,则接受原假设;否则,拒绝原假设。假设。第十一讲:定量资料的统计分析假设(假设(Z)检验(单边)图示检验(单边)图示l 接受域接受域拒绝域拒绝域第十一讲:定量资料的统计分析假设(假设(Z)检验(双边)图示检验(双边)图示接受域接受域拒绝域拒绝域拒绝域拒绝域第十一讲:定量资料的统计分析利用利用SPSS做假设检验做假设检验利用利用SPSS做均值(或成数)差异比较的假设做均值(或成数)差异比较的假设检验检验1、单总体假设检验(、单总体假设检验(T检验)检验)2、二总体假设检验(、二总体假设检验(T检验)检验) 二分变量二分变量-二分变量;二分变量二分变量;二分变量-定距变量定距变量(1)独立样本假设检验)独立样本假设检验(2)配对样本假设检验)配对样本假设检验Compare means命令的介绍。命令的介绍。第十一讲:定量资料的统计分析3、双变量的统计分析、双变量的统计分析l双变量的统计分析主要是探讨两个变量之间双变量的统计分析主要是探讨两个变量之间的关系。根据变量层次的不同,分析所采用的关系。根据变量层次的不同,分析所采用的具体形式也有差别。主要是相关和回归分的具体形式也有差别。主要是相关和回归分析。析。l计算出相关和回归系数之后,要对相关和回计算出相关和回归系数之后,要对相关和回归系数进行显著性参数检验(归系数进行显著性参数检验(parametric test of significance)。)。第十一讲:定量资料的统计分析3、双变量的统计分析、双变量的统计分析l定类变量定类变量定类变量(定序变量):列联表定类变量(定序变量):列联表和卡方检验和卡方检验l定序变量定序变量定序变量:定序变量:G相关和相关和Z检验检验l定类变量(定序变量)定类变量(定序变量)定距变量:相关比定距变量:相关比率和率和F检验;也就是方差分析。检验;也就是方差分析。l定距变量定距变量定距变量:皮尔逊相关系数和回定距变量:皮尔逊相关系数和回归分析,归分析,F检验。检验。l独立性和相关性。独立性和相关性。第十一讲:定量资料的统计分析3、双变量的统计分析、双变量的统计分析l介绍介绍SPSS中用于双变量统计分析的几个命令。中用于双变量统计分析的几个命令。lCROSSTABS(定类定类-定类;定序定类;定序-定序)定序)lCORRELATION(定距定距-定距)定距)lREGRESSION(定距定距-定距)定距)第十一讲:定量资料的统计分析4、多变量统计分析、多变量统计分析l多变量的分析方法种类很多:多变量的分析方法种类很多:l阐释(详析)模式、复相关、多元线性回归、阐释(详析)模式、复相关、多元线性回归、Logistic回归分析、路径分析、因子分析、回归分析、路径分析、因子分析、聚类分析、判别分析、对数线性模型、多元聚类分析、判别分析、对数线性模型、多元方差分析、结构方程模型、时间序列分析等方差分析、结构方程模型、时间序列分析等等。等。第十一讲:定量资料的统计分析4、多变量统计分析、多变量统计分析l郭志刚:社会统计分析方法郭志刚:社会统计分析方法SPSS软件应软件应用,中国人民大学出版社,用,中国人民大学出版社,1999年年12月版。月版。(已经有了新版本)(已经有了新版本)l卢淑华:社会统计学,北京大学出版社,卢淑华:社会统计学,北京大学出版社,1989年版。年版。l张文彤,张文彤,SPSS统计分析基础教程统计分析基础教程、SPSS统计分析高级教程统计分析高级教程,高等教育出版,高等教育出版社,社,2010。l劳伦斯劳伦斯汉密尔顿,郭志刚等译,汉密尔顿,郭志刚等译,应用应用STATA做统计分析做统计分析,重庆大学出版社,重庆大学出版社,2011。第十一讲:定量资料的统计分析
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号