相关与回归分析报告研讨

分析阶段 ZTE GB402 V1 5 相关和回归分析 主要内容 1 相关分析2 回归分析 学习目的 变量 X1 与变量 X2 间或X与Y间 有多少相关性 相关分析 变量间关系式的推测 回归分析 它们之间有关系吗 有多强的关系 有什么样的关系式 机动车的数量vs交通事故发生率网板厚度vs焊膏厚度 1 相关关系是 相关关系可以用数据来看出两个变量 Y与X 或两个X 间紧密程度如何 两者之间关系的强度通过相关系数 r 可以计数化 Minitab使用Pearsonproductmoment相关系数 1 0 0 1 0 负的相关系 正的相关关系 r 弱相关关系 决定点 r值 r接近 1 r接近 1 正的相关关系 负的相关关系接近0时几乎没有相关关系 相关系数的性质 为调查相关关系 需要数据构造为成对的2个变量数据 相关系数 CorrelationCoefficient 一般表示为 总体的相关关系 其范围是 1 1 一般情况下我们无法知道 的正确的值 因此使用从样本推断的值r r从如下公式得出且范围是 1 r 1 一般样本大小 30个以上 为基准如果 r 0 80时具有强的相关关系如果0 3 r 0 80时具有弱的相关关系 如果 r 0 30时认为没有有效的关系 相关公式 强的正相关 弱的正相关 中间程度的正相关 r 0 936 r 0 560 r 0 3390 强的负相关 弱的负相关 中间程度的负相关 相关的类型和大小 判断相关类型 对结果Y影响最大的因子 可从点的密集程度判断单纯通过散点图分析相关关系时不客观 因此需要客观的分析 即可看出相关程度的指数 相关系数计算方法等 相关系数计算方法是从直线的观点进行分析 曲线关系时 如果以相关系数方法计算时会出现错误的结果 相关并不是分析所有的因果关系 即使证明Y与X间具有相关 也并不意味着Y的变动一定是X的变动引起的 可能存在引起X与Y同时变动的第3个隐藏变量 两个变量间有关系的结论并不意味着因果关系 且样本相关系数的值接近 0 表示两个变量间直线关系弱 并不意味着两个变量间没有关系 相关的滥用与误用 事例分析 单板生产过程中 刮刀压力可能会影响到焊膏的厚度 为了了解刮刀压力和焊膏厚度的关系 为此我们进行几次实验后得出如下资料 求此资料的散点图及总体的相关系数 打开A 08 mtw Stat BasicStatistics Correlation 从上面点来看 可以猜测有强的相关关系 分析结果根据刮刀压力和焊膏厚度的相关系数为r 0 955 可看出具有强的负相关 从上述结果可以得出 为了保证焊膏厚度符合要求 必须监控刮刀的压力 统计分析 结果解释 事例分析 下面给出13家上市公司的每股账面价值和每股红利 以1 账面价值作为横轴 画散点图2 计算相关系数并解释 从散点图我们可以看出什么 相关系数可以看出什么 通过它我们可以知道哪个输入对输出值有多少影响 为了得到想要的输出值 我们应按什么水平管理X的规格 回归 寻找 Y 与 X 关系的方法什么是回归 描述 Y 与 X 关系的数学方法 创建过程的 模型 2 回归分析 相关是告诉关系的程度 回归分析是找出Y F X 的函数关系式 回归分析的种类 单纯回归模型 独立变量为一个多重回归模型 独立变量为两个以上例Y a bx1 cx2 dx3 单纯线性回归模型 设定直线关系后分析例Y a bx曲线回归模型 设定曲线关系后分析例Y a bx cx2 dx3Y a bx 单纯线性回归 回归分析的阶段 Data收集 用散点图确认关系 用最小二乘法推断总体 进行方差分析 画直线 LineFitting 分析残差 此章的因子为一个 因子和输出值 Y 的关系为直线关系的单纯线性回归 SimpleLinearRegression 通过样本推测的直线 未知的真实直线 Yi xi i i 1 n i是相互独立的 遵守N 0 2 的概率变量 单纯线性回归模型 i ei xi yi x y 在这里 i iidN 0 2 Model 定义一个独立变量 x 与一个从属变量 Y 间的关系方程式化后显示的方法 将误差平方和最小化的推断方法 找出将残差平方最小化的直线 最小平方和的单纯回归 单纯回归直线 与回归直线的差异 误差 直线是以 最小平方和推断法 leastsquareestimation 的原则画出的 从资料的点到直线的距离的平方和最小化 e b ScatterPlotYvs XwithFittedLineY a bX 直线的方程式是Y a bXa是常数 b是斜率 拟合线 是包括实际点和直线的平方差的和最小化后形成的直线 实际资料的点和直线的差异称为残差 residuals e 拟合线 回归方程式构造 残差 e 是对误差的最佳推断值 是实际结果值和回归方程式推测的最佳值间的差异 残差 实际观测值 yi 和推测值的差 残差越小推断的回归式更能说明实际结果 残差是误差的最好的推断值 残差按大小排列或按资料的顺序排列时 它们以 0 为轴相对称 并且不能存在特别的倾向 大家用MINITAB对上述数据进行回归分析 打开 A13 mtw 下面是对硅胶强度有重要影响的SiO2使用量的关系的分析数据 事例分析 Graph Plot 从散点图看似乎有一定相关性 那么要进一步分析有多少相关性 Stat Regression Regression 回归方程式 方差分析 s 残差 误差 的标准差 残差为观测值 预测值 换句话说 指观测点至回归方程式中描述的拟合线的距离 对于优秀的模型 此值应较小 s MS error 1 2R Sq 由拟合线能够 解释 的总变差的百分数 由 X 解释的变差 对于优秀的模型 此值应较大 R Sq adj 对过于拟合情况 方程式中的变量过多 的调整 它将包括模型中的项数与观测值的个数进行对比其中n 观测值数量p 模型中项数 包括常数 判断的方法 New X 变量的p值 速度Ho 斜率 0H1 斜率 0或者 另一种表达方式 Ho X 不显著H1 X 显著 常数的p 值H0 直线通过原点 0 0 0硬度 0使用量 H1 直线不通过原点 0 0 结果判断 R2越大 模型对工序模拟得越好 New SSregression 由模型中的 X 解释变量 Y 的变动每一X值对应的模型预测值和Y的总平均值之差的平方和 SSerror 未被解释的 Y 的变差 每个数据点的Y观测值和该数据点Y的预测值之差的平方和 值越小越好 SStotal Y值相对其平均值的总变差 结果判断 回归项 的SS和MS 应比误差项的 SS和MS 大 通过查看R Sq R Sq adj s和p值来评估模型 p 值应 0 05 以表示统计显著性 良好拟合的方程式 New Stat Regression FittedLinePlot 拟合线 R sq值称为决定系数 用R2表示 范围是0 R2 1 R2越接近1时可以说明越接近回归线 Stat Regression FittedLinePlot 残差分析 StorageOprion中选择Residual和Fits时 可得出如下数据 Stat Regression ResidualPlots 残差图表 残差具有多少正态性 条状图是钟型的曲线吗 要无视 30 以下的资料 个别残差能看出多少倾向 或异常点 是否没有倾向 对 0 是随机的 回归分析结果解释 SiO2的使用量 X 与强度 Y 间的推断回归式是强度 Y 3 07 6 9SiO2使用量 X 且两个变量回归系数为72 可以说具有强的关系 使用Adj R sq 即 用上述回归直线可以说明的变动量为72 观察方差分析表 回归相关警告 图表 R Sq 66 2 R Sq 66 2 R Sq 66 2 R Sq 66 2 对4个不同的资料群从基本统计结果来看似乎一样 但期间很明显有差异 总是要用一种以上的方法来看 不要忘记忆原始资料 rawdata 画散点图 相关与回归的概要 相关分析可以作为非常有用的工具活用于实际生活中 相关关系是看出两个连续型变量间相关性的尺度假定因果关系时需要更加注意 回归模型将变量间的关系显示为线型或非线型函数 回归分析可以从回归式预测期望值 您相信我们的家电所占据的展示厅面积的大小会影响销售量 您已经收集了过去12个月内 多个零售点销售量与总的占地面积方面的数据 现在 您希望分析这些数据 看占地面积是否确实与年销售量存在某种关系 应用所学的单变量回归方法 准备解释您的答案 以及支持您的结论的结果 K 平方英尺 New 分析阶段总结 如果我们的数据量比较大 采集数据非常容易时 我们可以使用描述型的统计工具进行分析 1 如果想知道变量的分布形状 平均值的位置 离散程度 倾斜度 峰态等具体的统计信息 可以用DisplayDescriptiveStatistics工具来分析 2 如果我们想知道变量分布形状 均值的大概位置 离散的程度的粗略信息时 我们可以用Histogram MultipleDotplot等工具分析 3 如果我们要比较两个变量或者想知道在不同 条件 下变量发生什么样的变化时 我们可以用Boxplot MultipleDotplot工具来分析 New 4 如果我们想知道变量之间的相互关系时 可以使用Scatterplot Marginalplot 两个变量之间的关系 和Matrixplot 多个变量之间的相互作用 5 如果我们想知道随着时间变化 变量怎样变化时可以使用Timeseriesplot进行分析 6 如果我们要知道多个输入变量 X 对输出变量 Y 的影响程度 可以使用Multi VariChart MainEffectsPlot进行分析 7 如果我们要知道不良品 缺陷数 争议点 事故的现象或原因等集中在哪些方面的时候 可以使用Paretochart Piechart进行分析 New 如果我们的数据量比较小 采集数据非常难 我们可以使用假设检验工具对均值进行分析 一 我们涉及的数据是连续性的数据时1 如果我们想知道一个变量跟一个基准值是否在统计意义上有显著性差异的时候 也就是判断这个变量是否发生了异常原因的波动 可以使用1samplet工具分析 2 如果我们想知道两个变量或者两种水平下是否在统计意义上有显著性差异的时候 可以使用2samplet Pairedt工具分析 3 如果我们要比较多个变量或者一个变量在多个水平下是否有显著性差异时 可以用ANOVA工具来分析 New 二 我们涉及的数据是离散型的数据时1 如果我们想知道一个变量跟一个基准值是否在统计意义上有显著性差异的时候 也就是判断这个变量是否发生了异常原因的波动 可以使用1Proportion工具分析 2 如果我们想知道两个变量或者两种水平下是否在统计意义上有显著性差异的时候 可以使用2Proportion工具分析 3 如果我们要比较多个变量或者一个变量在多个水平下是否有显著性差异时 可以用Chi squaretest工具来分析 New 如果我们的数据量比较小 采集数据非常难 我们可以使用假设检验工具对方差进行分析 如果我们想知道两个变量或多个变量的方差在统计意义上是否有显著性差异的时候可以TestforEqualvariance进行分析 如果我们想知道两个变量之间有多强的关系是 可以使用Correlation进行分析 要求和Scatterplot和用 如果我们想知道输出变量和输入变量之间的函数关系时 可以使用Regression进行分析 New