SPSS之数据管理和变换-

第三讲：SPSS数据管理和预处理,本讲内容,数据文件处理：文件合并、拆分、挑选、加权数据编辑：数据校对，插入样本/变量，排序变量处理：根据原始变量生成新的变量,第一节：数据文件处理,数据文件处理是指对数据库文件本身的操作。主要包括多个文件之间的合并，把文件从结构上分成不同的部分，把同一文件分成多个数据文件，以及从文件中挑选一部分数据形成新的文件等四种主要处理。,1.1 文件合并（纵向合并/添加样本）,前提：保证多个不同文件中的变量个数及顺序一致。一次合并一个文件。操作：数据文件合并添加个案,1.2 文件合并（横向合并/添加变量）,前提：保证每个数据库中个案数和顺序一致，一次添加一个文件。操作：数据合并文件添加变量,2. 数据拆分,数据拆分是指将数据从内在结构上划成不同的结构，不是将数据拆分为若干个文件，数据拆分以后，统计结果会分成不同的层次。类似于频次分析中的交叉分析。例如：将数据库按照性别拆分成两个层次，以后出现的统计结果，就会根据男女分别输出结果。,2 数据拆分操作,数据拆分文件比较组选择拆分变量如果选择按组组织输出，以后的统计结果是分成不同的表输出的。,3. 数据挑选,对总体数据库中的某一部分数据进行单独分析，如在总体中，把年龄在20-30岁的青年人口跳出来作专门分析。操作：数据挑选个案设置条件选择（未）被选中样本的处理方式确定,4. 数据加权,调查数据所获得样本与总体相比较，有较大偏差，需要对数据进行加权处理，以使数据更具代表性。加权方法也可以用来录入二手数据。加权操作：数据加权个案,4.1 用加权方法录入二手数据,录入方法：设置三个变量，v1，v2，v3分别表示性别、成绩和单元格值（即权重）,第二节数据编辑,对于已经形成的大样本数据库，在分析之前需要做一些简单的操作（结合统计分析）以确保数据的准确，包括对错误数据的修改，插入单个个案或单个变量，数据排序,1. 单元格的修改,发现录入错误，可以通过菜单进行修改。方法：在数据视图窗口下，点击变量名，选中该列，点击“编辑”查找，或者直接按Ctrl+F，输入数值，进行查找，找到后修改。,2. 增加（删除）case,在数据视图窗口下，在任意序号（行）右击鼠标，可选择插入增加个案，也可以进行其他操作，如剪切、复制、清除；,3. 增加或删除变量,在数据窗口下，在任意列上右击鼠标，选择插入变量，或进行其他操作，如剪切、复制、清除等；,4. 数据排序,根据变量取值大小对数据进行排序。类似excel中的数据排序，有两种方法。菜单操作：数据排序个案选择排序变量优点：对多个变量设置不同顺序。,4 数据排序,2. 鼠标操作：选中一个或多个变量，右击选择排序方式缺点：所选择变量只能同时升序或降序；,第三节：变量处理,为了研究的需要，有时需要把原始测量的变量重新编码，以生成新的变量。如对年龄取平方，或依据年龄将人们分成不同的年龄组。有两种方式： 1.根据定距变量生成定距变量； 2.根据定距（或定类）变量生成定类变量；,1. 定距变量转定距变量,原始变量和目标变量都是定距层次，一般需要建立两个变量之间的数学关系。操作方法：转换计算变量数学关系,2.1 定类变量转定类变量,原始变量和目标变量都是定类变量，一般是将多个分类的变量合并为少数分类的变量，如将8个民族合并为汉族和非汉族两类；操作：转换重新编码为相同/不同变量选择原始变量命名新变量建立旧值和新值之间的对应关系更改确定。建议选择重新编码为不同变量，这样不会覆盖原始变量。,2.2 定距变量转定类变量,原始变量和目标变量分别是定距变量和定类变量，操作同2.1，可以在选取旧值时，可以采用区间选取。,小结,在数据分析之前，需要对不符合分析条件的变量进行重新编码，整理。另一方面，也会根据分析模型的拟合情况，对原有数据进行重新编码。统计分析是一个试错的过程，需要不断对变量进行合并、拆分、转换等使我们建立的模型拟合达到最佳效果。,