《精编》统计质量控制理论和方法研讨

第四章统计质量控制理论和方法 2000版ISO9000族标准将统计技术提升为质量管理体系的一个基础 强调的不是统计技术本身 而是 统计技术的作用 即将统计技术作为分析 解决问题 提高质量管理体系有效性和促进持续改的一种工具 全面质量管理运用数理统计方法大致按照如下工作程序进行 一 针对所要解决的质量问题用科学方法收集数据 二 将收集的数据整理归纳 形成能说明问题的图 表或计算出特征值 如平均值 百分比 标准差等 三 对这些经过整理的数据 图 表进行观察 分析 找出其中的统计规律 四 根据统计规律的启示 找出影响质量的主要问题 五 针对找出的问题采取措施 达到提高质量的目的 质量管理活动中运用数理统计方法的工作程序如图 第一节质量控制的统计学基础 一 质量特性值 数据的分类 测量或测定质量指标所得的数值 一般称为数据注 1 质量特性值通常表现为各种数值指标 即质量指标 2 一个具体产品常需用多个指标来反映它的质量 3 根据质量指标性质的不同 质量特性值可分为计数值和计量值两大类 计数值 当质量特性值只能取一组特定的数值 而不能取这些数值之间的数值时 这样的特性值称为计数值 计数值数据是只能按0 1 2 数列取值计数的数据 非负整数 属于离散型变量 它一般由计数 数数 得到计数值可进一步区分为计件值和计点值 对产品进行按件检查时所产生的属性 如统计合格与不合格的产品件数 数据称为计件值 每件产品中质量缺陷的个数称为计点值 如棉布上的疵点数 铸件上的砂眼数等 计量值 计数值和计量值 当质量特性值可以取给定范围内的任何一个可能的数值时 这样的特性值称为计量值 如用各种计量工具测量的数据 长度 重量 时间 温度等 就是计量值 计量值数据是可以连续取值的数据 属于连续型变量 二 总体 个体与样本 总体与个体一般我们把研究对象的全体称为总体 或母体 而把每一个研究对象称为个体 例 在研究某灯泡厂生产的灯泡质量时 该厂生产的灯泡全体构成的一个总体 其中每只灯泡都是个体 我们通常关心某个总体的某个 某些 数量指标 或数量化的属性特征 一般用X表示所要考察的数量指标 如灯泡的寿命 零件的尺寸 儿童的身高等 例 为了考察某批灯泡的质量 我们可以考察灯泡的寿命 而不考虑其形状 大小 这时我们就把该批所有的灯泡寿命视为一个总体 其中每个灯泡的寿命就是一个个体 总体分布对于一个总体来说 它的每一个数量指标对于不同的个体其指标值可能是不同的 也就是说数量指标X是一个随机变量 例 灯泡的寿命就是一个随机变量 整批灯泡的寿命X就可以用一个随机变量来表示总体是一个具有特定分布的随机变量 不同的总体 其分布也不同 因此 可以将对总体的研究归结为对随机变量X的分布及其主要数字特征的研究 总体与样本 PopulationandSample 对总体的研究 当然最好是对每个个体都研究 但这往往是不必要的 有时甚至是不可能的 例 当总体所含个体数量相当大时 若对每个个体都进行研究将浪费大量人力 财力若对总体的研究是破坏性的 如考察某批炮弹的杀伤力 则更不可能对每个个体都作实验只能从总体中抽取一部分个体进行观察或试验 根据对这部分个体的观察结果来推断总体的分布情况 样本的抽取是随机的 在具体的抽样之前 哪些个体被抽取 不能预先确定 每个个体被抽取的机率是相等的 样本是总体的代表与反映 但在抽取样本之后 我们并不立即利用样本进行推断 而需对样本进行一番 加工 和 提炼 对样本资料的数量特征及其分布规律进行描述常用的统计量有 众数 中位数 算术平均数 调和平均数 几何平均数 极差 四分位差 标准差 方差 标准差系数等离散型随机变量常见的概率分布 0 1分布 二项分布 泊松分布 超几何分布连续型随机变量最常见的是正态分布 正态分布是概率统计中最重要的分布 三 数理统计常用的几个特征值及常见分布 统计中常用的特征数有两类 一类是表示集中趋势的特征数 如平均数 众数 中位数一类是刻画离散程度的特征数 如方差 标准差 变异系数 1 简单算术平均值 arithmeticmean 表示平均水平的数值某车队共有10辆车 某日行驶里程如下表 数理统计常用的几个特征值 平均车日行程 10 247 235 245 281 213 212 260 213 219 240 236 5 公里 2 加权算术平均数 weightedarithmeticmean用于分组资料的计算 如 某汽车公司当日班车的行驶里程分组如下 f代表各组变量值出现的频数 3 中位数 Median 将数据按大小顺序排列起来 形成一个数列 居于数列中间位置的那个数据 先将数据按大小排序 则中位数就可以按下面的方式确定 2 3 4 5 6 7中位数 4 5 2 4 5 1 2 3 6 7中位数是3 3 中位数 Median 将数据按大小顺序排列起来 形成一个数列 居于数列中间位置的那个数据 先将数据按大小排序 二 数理统计常用的几个特征值 则中位数就可以按下面的方式确定 2 3 4 5 6 7中位数 4 5 2 4 5 1 2 3 6 7中位数是3 4 众数 Mode 一组数据中出现次数最多的那个数值例 1 2 3 3 4 众数是31 2 3 4 5 没有众数1 2 2 3 3 4 众数是2和3众数代表一组数据的可靠性较差 不过 众数不受极端数据的影响 并且求法简便 小结 众数 中位数与平均数从不同的角度描述了一组数据的集中趋势 其中 又以平均数的应用最为广泛 平均数的大小与一组数据里的每个数据均有关系 其中任何数据的变动都会相应引起平均数的变动 众数着眼于对各数据出现的频数的考察 其大小只与这组数据中的部分数据有关 当一组数据中有不少数据多次重复出现时 其众数往往是我们关心的一种统计量 中位数则仅与数据的排列位置有关 因此某些数据的变动对它的中位数没有影响 当一组数据中的个别数据变动较大时 可用它来描述其中趋势 4 极差 Range 极差表示一组数据分布的范围 是指数据中最大值与最小值的差 R Xmax Xmin1213141621这组数的极差就是21 12 9 极差又称全距 反映的是变量分布的变异范围和离散幅度 它体现s的是一组数据波动的范围 5 标准差 StandardDeviation 各数据偏离平均数的距离的平均数 反映一个数据集的离散程度例 4名儿童的身高分别是110厘米 100厘米 120厘米和150厘米 若求4名儿童身高数据的标准差第1步 计算数据的平均数第2步 计算各数据与平均数之间的离差平方 并求和 110 120 2 100 120 2 120 120 2 150 120 2 1400第3步 求标准差S S 一个较大的标准差 代表大部分的数值和其平均值之间差异较大 一个较小的标准差 代表这些数值较接近平均值 列表计算标准差 小结 极差 方差 标准差主要用来反映一组数据的离散程度 也就是反映一组数据的波动大小极差只指明了测定值的最大离散范围 而未能利用全部测量值的信息 不能细致地反映测量值彼此相符合的程度 同时易受极端值的影响标准差也是用来表示一组数据的波动大小的量 方差虽然计算比较复杂 但可以比较全面地反映数据的离散程度 因此标准差实际的应用性强极差的优点是计算简单 含义直观 运用方便 因此某些时候可以作为总体标准偏差的有偏估计值 二项分布贝努利试验及其概率公式贝努利试验 对于n次独立的试验 如果每次试验结果出现且只出现对立事件A与之一 在每次试验中出现A的概率是常数p 0 p 1 因而出现对立事件的概率是1 p q 则称这一串重复的独立试验为n重贝努利试验 简称贝努利试验 Bernoullitrials 重要的离散型分布 只有两种可能结果的随机试验称为贝努利试验 食品抽样中 产品合格或不合格 种子发芽或不发芽 施药后害虫死或活等等 贝努利试验的概率公式 在贝努利试验中 事件A可能发生 也可能不发生 用随机变量x表示贝努利试验的两种结果 记A发生时取1 A不发生时取0 那么 贝努利试验的概率公式可以表示为 也称为两点分布 在n重贝努利试验中 事件A可能发生0 1 2 n次 现在我们来求事件A恰好发生k 0 k n 次的概率Pn k 事件A在n次试验中正好发生k次共有种情况 由贝努利试验的独立性可知 A在k次实验中发生 而在其余n k次试验中不发生的概率为 二项分布的定义及其特点 一般 在n重贝努利试验中 事件A恰好发生k 0 k n 次的概率为 k 0 1 2 n 若把上式与二项展开式相比较就可以发现 在n重贝努利试验中 事件A发生k次的概率恰好等于展开式中的第k 1项 所以也把上式称作二项概率公式 二项分布定义设随机变量x所有可能取的值为零和正整数 0 1 2 n 且有 k 0 1 2 n其中p 0 q 0 p q 1 则称随机变量x服从参数为n和p的二项分布 binomialdistribution 记为x B n p 二项分布是一种离散型随机变量的概率分布 参数n称为离散参数 只能取正整数 p是连续参数 它能取0与1之间的任何数值 q由p确定 故不是另一个独立参数 n值不同的二项分布比较 2 当p值趋于0 5时 分布趋于对称 如图所示 3 对于固定的n及p 当k增加时 Pn k 先随之增加并达到其极大值 以后又下降 4 在n较大 np nq较接近时 二项分布接近于正态分布 当n 时 二项分布的极限分布是正态分布 二项分布由n和p两个参数决定 其特点是 1 当p值较小且n不大时 分布是偏倚的 但随着n的增大 分布逐渐趋于对称 如图所示 p值不同的二项分布比较 二项分布的应用条件 1 各观察单位只具有相互对立的一种结果 如合格或不合格 生存或死亡等等 非此即彼 2 已知发生某一结果 如死亡 的概率为p 其对立结果的概率则为1 P q 实际中要求p是从大量观察中获得的比较稳定的数值 3 n次观察结果互相独立 即每个观察单位的观察结果不会影响到其它观察单位的观察结果 波松分布 Poisson 波松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布 要观察到这类事件 样本含量n必须很大 所谓稀有事件即是小概率事件 在生物 医学等研究中 服从波松分布的随机变量也是常见的 例如 正常生产线中单位事件生产出不合格产品个数 单位事件内机器出现故障的次数 每升饮水中大肠杆菌数 计数器小方格中血球数 一批香肠中含有毛发的香肠数 1000袋面粉中含有金属物的袋数等等 都是服从或近似服从波松分布的 波松分布的定义若随机变量x x k 所有可能取值是非负整数 且其概率分布为其中 0 e 2 7182 则称x服从参数为 的波松分布 Poisson sdistribution 记为x P k 0 1 是波松分布所依赖的唯一参数 值愈小分布愈偏倚 随着 的增大 分布趋于对称 如图所示 当 20时分布接近于正态分布 当 50时 可以认为波松分布呈正态分布 所以在实际工作中 当 20时就可以用正态分布来近似地处理波松分布的问题 波松分布重要的特征波松分布为离散型随机变量的概率分布 其平均数和方差相等 都等于常数 即 2 不同 的泊松分布 波松分布的概率计算由波松分布的概率计算公式可以看出 依赖于参数 的确定 只要参数 确定了 把k 0 1 2 代入即可求得各项的概率 但是在大多数服从波松分布的实例中 分布参数 往往是未知的 只能从所观察的随机样本中计算出相应的样本平均数作为 的估计值 将其代替计算公式中的 计算出k 0 1 2 时的各项概率 随机变量常见概率分布 正态分布 normaldistribution 正态分布是一种很重要的连续型随机变量的概率分布 自然现象中有许多变量是服从或近似服从正态分布的 如瓶装食品的重量 分析测定过程中的随机误差等等 许多统计分析方法都是以正态分布为基础的 因此在统计学中 正态分布无论在理论研究上还是实际应用中 均占有十分重要的地位 对于波松分布 当 时 波松分布以正态分布为极限 在实际计算中 当 20 也有人认为 6 时 用波松分布中的 代替正态分布中的 及 2 即可由