运用spss对各地区的废气排放进行因子分析.docx

摘 要 多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。近30年来,随着计算机应用技术的发展和科研生产的迫切需要。多元统计分析技术被广泛地应用于地质、气象、水文等许多领域,已经成为解决实际问题的有效方法。

因子分析模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系;
因此,因子分析的出发点是原始变量的相关剧增。因子分析的思想始于1904 年查尔斯斯皮尔曼对学生考试成绩的研究。近年来,随着电子计算机的高速发展,人们将因子分析的理论成功地应用于心理学、医院、气象、地质、经济学等各个领域,也使得因子分析的理论和方法更加丰富。

本文利用2014年中国统计年鉴的统计数据资料,在研究城市废气排放的现状及主要问题的基础上,运用因子分析方法分析了影响城市废气排放的主要因素,通过SPSS的操作,得出它的成分矩阵,方差贡献度提取公共因子最后计算它的各因子得分和综合因子得分,然后就是对变量数据进行分析,得出一些结论提出控排,合排和净化的对策建议。

关键词应用多元统计分析因子分析SPSS 成分矩阵 目 录 1 设计目的1 2 设计问题1 3 设计原理2 4操作步骤2 5 结果分析3 5.1 主成分分析法3 6 设计总结10 致谢11 参考文献12 全国各重要城市废气排放的因子分析 1 设计目的 学会应用SPSS软件进行相关的因子分析,同时更好的了解应用多元统计分析的知识,熟练掌握应用多元统计分析在实际问题上的应用,并将所学的知识结合SPSS对数据的处理解决实际问题。本设计是利用因子分析理论作分析,并用SPSS软件进行求解 2 设计问题 X1表示二氧化硫年平均浓度 ;
X2表示二氧化氮年平均浓度;
X3表示可吸入颗粒数X4表示一氧化碳日均值第95百分位浓度;
X5臭氧日最大8小时第九十百分位浓度;
X6 细颗粒物年均浓度;
X7 空气质量好于二级的天数。现在利用因子分析对全国各重要城市废气排放进行分析 各个重要城市的废气排放表2.1 表2.1 各个重要城市废气排放 地区 X1 X2 X3 X4 X5 X6 X7 北 京 26 56 108 3.4 188 89 167 天 津 59 54 150 3.7 151 96 145 石 家 庄 105 68 305 5.7 173 154 49 太 原 80 43 157 3.4 148 81 162 呼和浩特 56 40 146 4.1 104 57 213 沈 阳 90 43 129 3.2 139 78 215 长 春 44 44 130 2.1 127 73 230 哈 尔 滨 44 56 119 2.2 72 81 239 上 海 24 48 84 1.6 158 62 246 南 京 37 55 137 2.1 138 78 198 杭 州 28 53 106 1.9 155 70 212 宁 波 22 44 86 1.7 137 54 277 温 州 23 51 94 1.9 147 58 252 嘉 兴 30 47 94 2.1 173 68 214 湖 州 29 52 111 1.8 180 74 192 绍 兴 38 49 105 1.9 133 71 240 金 华 34 41 99 1.9 164 70 195 衢 州 36 37 94 1.4 134 68 248 舟 山 10 22 58 1.1 122 33 319 台 州 17 34 82 1.8 154 53 266 丽 水 19 32 69 1.2 143 49 297 合 肥 22 39 115 1.8 101 88 180 福 州 11 43 64 1.2 73 36 343 厦 门 20 44 62 1.2 136 36 336 南 昌 40 40 116 1.8 122 69 230 济 南 95 61 199 3.1 190 110 79 青 岛 58 43 106 2 115 67 259 五十一个变量取前二十七个变量 数据来源2014年中国统计年鉴 现在利用因子分析对全国各重要城市废气排放进行分析,看它们的排放与城市的有何关系 3 设计原理 1 确定因子载荷主成分法、主轴因子法、最小二乘法、极大似然法、α因子 提取法等。由于这些方法求解因子载荷的出发点不同,所得的结果也不完全 相同 2 因子旋转因子旋转分为正交旋转与斜交旋转,正交旋转由初始载荷矩阵A 左乘一正交阵而得到。经过正交旋转而得到的新的公因子仍然保持彼此独立的性 质。而斜交旋转则放弃了因子之间彼此独立这个限制,因而可能达到更为简洁的 形式,其实际意义也更容易解释。但不论是正交旋转还是斜交旋转,都应当使新 的因子载荷系数要么尽可能地接近与零,要么尽可能地远离零。

3 因子得分因子得分就是公共因子在每一个样品点上的得分。根据因子得 分我们可以知道哪个城市的废气较多,哪个城市的废气较少。根据因子得分排名可以得到排名较前的地区有什么特征。

4 操作步骤 (1)将数据输入SPSS后,在SPSS窗口选择分析 描述统计 描述,然后将变量选入变量框,在选项点击均值 在离散中最大值 最小值 和标准差,在显示顺序点击变量列表。

(2)将数据输入SPSS后,在SPSS窗口选择分析→降维→因子分析→将数据选入变量框中。

(3)点击描述按钮,展开相应对话框,选择统计量中的单变量描述性,相关矩阵中的系数及KMO 和 Bartlett 的球形度检验和相关性水平。单击继续按钮,返回主界面。

(4)点击抽取按钮,设置因子提取的选项,在方法下拉菜单栏里选择主成分法,在分析框中选相关性矩阵,未旋转的因子解,碎石图抽取中基于特征值大于1,最后,选最大因子迭代数为25次,单击继续按钮,返回主界面。

(5)点击旋转按钮,设置因子旋转方法,选择方差最大旋转,并选择输出中的旋转解,单击继续按钮,返回主界面。

(6)点击得分按钮,设置因子得分的选项。选中保存为变量,方法为回归,将因子得分作为新变量保存在数据文件中。选中显示因子得分系数矩阵按钮,这样在结果输出窗口中会给出因子得分系数矩阵。单击继续按钮,返回主界面。

(7)点击选项按钮,在出来的界面缺失值中选均值替代,系数排序选择按大小排序,单击继续按钮,返回主界面。

(8)最后,在主界面上点击确定,输出结果 5 结果分析 5.1 主成分分析法 利用SPSS得到表5.1 表5.1 描述统计量 N 极小值 极大值 均值 标准差 x1 51 7 105 35.31 22.246 x2 51 17 68 44.20 10.692 x3 51 47 305 108.51 45.990 x4 51 1 6 2.27 1.130 x5 51 72 190 137.98 27.876 x6 51 26 154 66.29 24.404 x7 51 49 343 233.41 66.430 有效的 N (列表状态) 51 从描述统计量中可以看出数据都是比较有效的,因为所有的变量都没有缺失值,在最小值,最大值,均值和标准差都是有效数字,都是介于最大的数和最小的数。

利用SPSS得到表5.2Correlation Matrix原有变量的相关系数矩阵 表5.2相关矩阵a x1 x2 x3 x4 x5 x6 x7 相关 x1 1.000 .472 .808 .651 .085 .696 -.700 x2 .472 1.000 .635 .563 .305 .764 -.727 x3 .808 .635 1.000 .819 .066 .897 -.872 x4 .651 .563 .819 1.000 .010 .737 -.710 x5 .085 .305 .066 .010 1.000 .222 -.334 x6 .696 .764 .897 .737 .222 1.000 -.950 x7 -.700 -.727 -.872 -.710 -.334 -.950 1.000 a. 行列式 .001 从相关系数矩阵得知大部分的相关系数都比较高,例如X1和X3的相关系数比较高,也就是二氧化硫和可吸入颗粒的相关系数比较强,X3和X6的相关系数比较高,也就是可吸入颗粒和臭氧含量的相关系数比较高等,例外从表中可以知道,前六个变量与第七个变量都成负相关,也很容易理解,毕竟空气质量的好坏和污染空气的排放不是正相关的,总的来说,各变量呈较强的线性关系,能够从中提取公共因子,适合进行因子分析。

利用SPSS得到表5.3 表5.3KMO 和 Bartlett 的检验 取样足够度的 Kaiser-Meyer-Olkin 度量。

.837 Bartlett 的球形度检验 近似卡方 353.670 df 21 Sig. .000 KMO(Kaiser-Meyer-Olkin检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。主要应用于多元统计的因子分析。KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;
当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析由图可知Bartlett 的球形度检验的自由度21,sig值小于0.05,无限接近于0,说明原变量之间存在相关关系。同时,Kaiser-Meyer-Olkin为0.837,接近于1,根据KMO度量标准可知此数据适合做因子分析。

利用SPSS得到表5.4 表5.4公因子方差 初始 提取 x1 1.000 .700 x2 1.000 .686 x3 1.000 .935 x4 1.000 .771 x5 1.000 .921 x6 1.000 .918 x7 1.000 .916 是因子分析的初始解,显示了所有数据变量的共同度数据。可以看到等变量的绝大部分信息(大于90)可被因子解释,这些变量的信息丢失较少。但其余的三个变量的信息也都保存了60以上的信息。因此,本次因子提取的总体效果是比较理想 利用SPSS得到表5.5 表5.5解释的总方差 成份 初始特征值 提取平方和载入 旋转平方和载入 合计 方差的 累积