资源预览内容
第1页 / 共14页
第2页 / 共14页
第3页 / 共14页
第4页 / 共14页
第5页 / 共14页
第6页 / 共14页
第7页 / 共14页
第8页 / 共14页
第9页 / 共14页
第10页 / 共14页
亲,该文档总共14页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
社会统计学社会统计学课程第二次作业参考答案课程第二次作业参考答案第五章第五章 置信区间置信区间5-285-28 2003 年,在一项对高校扩招的态度调查中,10 所北京市院校对高校扩招的态度数据如下表(分数 越高态度越积极):院校名态度平均值标准差人数北京外国语学院 中国人民公安大学 中国青年政治学院 北京农学院 北京大学 清华大学 北方交通大学 北京航空航天大学 对外经济贸易大学 北京医学院3.81 4.32 4.08 3.98 3.58 3.78 4.26 4.12 3.88 4.070.67 0.55 0.68 0.65 0.64 0.71 0.66 0.74 0.57 0.6348 50 52 50 50 49 50 42 48 44求:1) 中国人民公安大学、清华大学、北京大学的总体平均态度分的 95置信区间;2) 中国人民公安大学和北京大学的总体平均态度分之差的 95置信区间;3) 清华大学和北京大学的总体平均态度分之差的 95置信区间。(提示:要先从S求得)2)XX(答:答:(1)中国人民公安大学:(df=49) ;156. 032. 45055. 0021. 232. 4025. 0nStX依此类推,同样的方法计算得:清华大学:;北京大学:204. 078. 3182. 058. 3(2)中国人民公安大学与北京大学差异:先根据公式计算:1)(2 2 nXXS2)(XX公安大学:8225.144955. 0) 1()(221211nSXX北京大学:0704.204964. 0) 1()(222222nSXX因此,联合方差为:35605. 049490704.208225.14 ) 1() 1()()(212222112 nnXXXXSpdf=49+49=98,查表得 t0.0251.98236. 074. 0501 50135605. 098. 1)58. 332. 4(11)( 21025. 02121nnStXXp(3)清华大学: 1968.244871. 0) 1()(221211nSXX北京大学:0704.204964. 0) 1()(222222nSXX45636. 049480704.201968.24 ) 1() 1()()(212222112 nnXXXXSpdf=48+49=97,查表得 t0.0251.98269. 020. 0501 49145636. 098. 1)58. 378. 3(11)( 21025. 02121nnStXXp注意:本题由于样本量比较大,关于 t 值我们通过查表无法获得精确值,只能用其他值近似地估计一下,由于每个人取的估计值可能会有所出入,所以可能会有点偏差(但不应相差过大),而书上的答案可能是通过软件去计算的,所以我们的答案可能也不一定和它相同。 第六章第六章 假设检验假设检验6-6从死于汽车碰撞事故的司机中抽取 2000 名司机的随机样本,根据他们的血液中是否含有酒精以及他们是否对事故负有责任,将数据整理如下表所示。在整个总体中,血液中含有酒精和不含酒精的司机之间在对事故负有责任方面有差异吗?为了回答 这一问题:1) 叙述并计算概值;0H2) 计算适当的置信区间(95)来说明差异有多大;3) 从这一数据如何说明“酒精增加了事故的发生率” 。答:问题转化为检验假设:是否有酒精对责任变化率的影响。 表:死于汽车碰撞事故中司机血液中是否含有酒精对事故的责任影响表(n=2000)有责任无责任有责任比例Pi有酒精 (n1=800)650(81.25%)150(18.75%)650/800(100%)无酒精 (n2=1200)700(58.33%)500(41.67%)700/1200(100% )1首先,血液有酒精的司机中有 1比例的司机对事故负有责任;而血液中没有酒精的司 机中有 0比例的司机对事故负有责任。现在观测到的样本中,血液中有酒精的司机的责任 事故率的比例 P1=81.25%,血液中无酒精的司机的责任事故率的比例 P0=58.33%, a) 、虚无假设 H0:在 5%的错误水平统计上,总体中血液里含有酒精和没有酒精的司 机在对事故负有责任的比例方面不存在统计意义上的差异,即有酒精吗 有责任吗有无有650150 无700500H0:=1 - 0=0; 备择假设 H1:在 5%的错误水平统计上,总体中血液里含有酒精和没有酒精的司 机在对事故负有责任的比例方面存在统计意义上的差异,假设酒精增加了司机的责任事故 率,即 H1:=1 - 00; 现在,总体比例差值的标准误差 SE 为:SE=000111)p1 (p)p1 (p nn 1200)5833. 01 (5833. 0800)8125. 01 (8125. 0=0.01980.0002025590.00019042 00039298. 0按照虚无假设 H0:有酒精的 1=58.33%计算其成立的概值:t=标准误差虚无假设值估计值=11.560198. 05833. 08125. 0对于样本量达 2000 的抽样,使用正态分布 Z 分布表,查得: 概值=Pr(Z11.56) ()- 0101pp Z05. 0000111)p1 (p)p1 (p nn=(0.8125-0.5833) 1.641200)5833. 01 (5833. 0800)8125. 01 (8125. 0=0.2292- 1. 64*0.0002025590.00019042 =0.2292-0.0325 =19.67% c) 、由于 H0假设=1 - 0=0,而实际上这个数值落在了置信区间(0.1967,)外, 否定虚无假设,拒绝 H0接受 H1; d) 、结论:在 5%的错误水平下,差异在统计上是可以分辨的,酒精增加了事故的发 生率。6-96-9、1974 年,美国盖洛普公司的一次调查表明,在 750 名美国男子的样本中,有 45抽烟;在另一个相互独立的 750 名女子的样本中,36抽烟, 1) 构造男性总体和女性总体中抽烟比例之差的 95单侧置信区间; 2) 计算没有差异这一原假设的概值; 3) 在错误水平=005 下,45与 36之差在统计上是可以分辨的吗?(或是显著的吗?)即,能拒绝吗?用两种方式回答,并说明两种答案是一致的:0H1) 是否没有落入 95的置信区间之内?0H2) 对的概值是否小于 0.05?0H答:答:(1)令 P1=男性样本抽烟比例,=男性总体抽烟比例;1P2=女性样本抽烟比例,=女性总体抽烟比例。2男性总体与女性总体抽烟比例之差的 95%置信区间:049. 0750)36. 01 (36. 0750)45. 01 (45. 0)36. 045. 0()1 ()1 ()(05. 02221112121ZnPP nPPZPP(2)H0:=(即,男性与女性总体的抽烟比例无显著差异)021H1:=09. 036. 045. 021025. 0750)36. 01 (36. 0750)45. 01 (45. 0)1 ()1 (222111nPP nPPSE因为样本量比较大,所以我们直接查 Z 分布的表6 . 3025. 009. 0SEZ估估估查表得,000233. 0)6 . 3Pr(Z(3)在 0.05 的错误水平下,男性和女性总体抽烟比例的差异是统计上可以分辨的。 1 和 2 的小问题答案都是“是” 。第七章第七章 回归分析回归分析7-77-7、假定一个 4 家庭的随机样本的年收入和年节余如下表所示(单位:千元):1) 估计总体回归直线XY家庭编号收入 X节余 Y1 2 3 44.8 7.2 8.5 9.51.2 3.0 3.5 3.52) 构造斜率的 95置信区间; 3) 作图画出 4 个样本点和拟合的直线,然后尽你所能在图中表示由 2)的置信区间所给出的可接 受的斜率(范围)。答:答: 表:4 个家庭的随机样本的年收入和年节余(千元)家庭编号收入X节余Y14.81.2 27.23.0 38.53.5 49.53.5=7.5X=2.8Y x2 =12.38,y2 =3.58,xy = 6.36首先做观测点的散布图,观察是否是简单线性回归: 图:4 个家庭的随机样本的年收入和年节余的散点图:y = -1.05 + 0.51X-2-10123456-202468101214年收入(千元)年节余(千元)可以知道是简单线性回归,于是建立年节余 Y 对年收入 X 的简单回归方程: = a + bX1)、由 X 预测 Y 的回归方程已经列出,现在求其中的参数 a、b:= = 0.51 ,则 =2.8 0.51*7.5 = -1.052xxyb38.1236. 6XbYa即: = -1.05 + 0.51X 2) 、斜率 的数学期望为 b=0.51,标准差为: 表:回归方程的剩余方差 S2的计算XYY- (Y- )24.81.21.398-0.1980.0392 7.232.6220.3780.1429 8.53.53.2850.2150.0462 9.53.53.795-0.2950.0870S2=243153. 0 =0.1577自由度 df=2,t0.025=4.303,又 b=0.51,x2 =12.38, ,代入 的置信区间公式: = b t0.0252xS得: = 0.51 4.30338.121577. 0= 0.51 4.303 * 0.1129 = 0.51 0.4856 即: 0.0244 0.9956表:斜率 的置信区间给出的回归线范围7-117-11、从某单位随机地抽取了相互独立的两个样本(男、女职工收入),其月收入数据如下:男:2300,2500,3000,2800,2600; 女:2400,2200,2000,2500,2700用表示收入,用哑变量表示性别:其中对于男性=1,对于女性=0。YXXX1) 画出对的图形;YX2) 用眼睛拟合一条对的回归线;YX3) 计算对的回归线;与 2)中用眼睛拟合的相比,后者的精度如何?YX4) 构造一个斜率为 95的置信区间,用简单的语言解释一下它的意义;5) 在 5的错误水平下,检验收入是否与性别无关;6) 4)和 5)的结果是否度量了该单位对女性的歧视?答:答: 表:某单位男女职工收入随机抽样调查表性别性别 X0000011111收入收入 Y2400220020002500270023002500300028002600图:收入 Y 对性别 X 的图形y = 28x + 23605010015020025030035001性别收入表:某单位男女职工收入随机抽样调查运算表XYx=X-Xy=Y-Yxyx2Y- (Y- )202400-0.5-100500.252360401600 02200-0.5-3001500.252360-16025600 02000-0.5-5002500.252360-360129600 02500-0.5000.25236014019600 02700-0.5200-1000.252360340115600 123000.5-200-1000.252640-340115600 125000.5000.252640-14019600 130000.55002500.252640360129600 128000.53001500.25264016025600 126000.5100500.252
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号