202X年计量学-随机变量、统计推断和随机过程

随机变量统计推断和随机过程提要介绍计量经济学的概率统计基础知识包括随机变量统计推断和随机过程知识假设有基本的概率论知识本教材的计量经济模型和分析方法的需要对于学习和理解计量经济分析方法有启发第一节随机变量和概率分布一随机变量及其概率分布二多元分布和条件分布三概率分布的数字特征四常见分布五随机变量的收敛性和极限理论一随机变量及其概率分布一随机变量随机变量就是数量化的随机事件按照公理化定义随机变量是从样本空间扩张而成的域到实数集的函数在经济问题中随机变量就是有随机性的经济指标水平随机变量也可以通过对定性事件的数量化转化得到离散型随机变量和连续型随机变量二概率分布随机变量重要的是取特定值的可能性称为随机变量的概率分布用表示一个随机变量那么概率分布就是设定取特定值一般用表示的概率记为对于离散型随机变量来说由于它们只取有限或可数个数值因此离散型随机变量的概率分布一般可以用罗列的方法表示用表格表示或者用图形表示等 x 三分布函数连续型随机变量的可能取值无穷多而每个值取到的概率都是无穷小无法用直接罗列概率的方法表达和研究只能用反映随机变量取特定范围值可能性大小的分布函数也称累积分布函数 accumulateddistributionfunction 进行描述和研究分布函数就是随机变量的取值不大于给定水平的概率构成的函数离散型随机变量的分布函数可以通过概率分布列的求和得到分布函数完整地描述了随机变量的情况掌握分布函数等于掌握了随机变量的随机性规律随机变量的分布函数有如下性质 1 2 若则 3 4 5 四密度函数连续型随机变量的概率分布还有另外一个有意义的概念那就是密度函数 densityfunction 或者称概率密度函数如果是的分布函数是的密度函数那么两者有如下关系密度函数满足 1 2 3 若是连续型随机变量的分布密度则对实数轴上的任一测度有五随机变量函数的概率分布如果是随机变量的函数设的分布函数为则的分布函数为含义是自变量随机取特定值的概率就是函数取相应函数值的概率当是离散型随机变量时其可能取值为且则当是连续型随机变量时其分布密度函数为则二多元分布和条件分布一随机向量和多元分布计量经济学中会遇到大量相互联系的两个或多个随机变量的情况许多时候重要的不是每个随机变量单独的随机性而是一组变量取特定水平的概率随机向量也有概率分布问题称为多元分布随机向量多元分布的含义是两个或多个随机变量取一组特定值的概率分布一般用联合分布函数表示从随机向量的联合分布函数可以引出随机变量边际分布的概念二条件分布和随机变量的独立性条件分布设是一个随机变量事件B满足则称为在事件B发生的条件下的条件分布函数或简称条件分布随机变量的相互独立性如果的联合分布函数等于所有一维边缘分布函数的乘积即那么称是相互独立的三概率分布的数字特征一期望也称数学期望衡量随机变量取值的平均水平定义为随机变量的可能取值以相应概率为权重加权的概率均值二方差衡量随机变量取值发散程度的指标定义为随机变量与其数学期望偏差平方的概率加权和三期望和方差的性质四条件期望全数学期望和条件方差条件期望即给定条件下所考察随机变量的概率均值设是随机变量对事件B的条件分布函数则当下列积分绝对收敛时称为对事件B的条件期望全数学期望公式若是两两互斥的完备事件组则有全数学期望公式其中可以是一般的随机事件也可以是随机变量条件方差给定随机变量X和Y 以X为条件的Y的条件方差为五高阶矩仿照数学期望和方差还可以进一步考虑更高阶的数字特征称为高阶矩当随机变量和的数学期望和假设存在分别称为随机变量的 r阶原点矩和 r阶中心矩可以用高阶矩构造一些有用的特定统计量偏度峰度六协方差和相关系数协方差设随机变量和的均值和方差都存在则称为和的协方差 Covariance 相关系数设随机变量和的均值和方差都存在则称为和的相关系数 Correlationcoefficient 偏相关系数计算偏相关系数要用到第二篇中的回归分析方法四常见分布一正态分布二分布三 t分布四 F分布一正态分布取值于的连续分布正态分布完全由期望和方差决定分布密度函数数学期望方差正态分布记为正态分布是以数学期望为中心的对称分布正态分布密度函数具有钟形特征95 左右集中分布在期望加减2倍标准差范围99 以上集中在期望加减3倍标准差范围内正态分布偏度为 0正态分布密度函数有常峰态峰度接近3 标准正态分布一般正态分布随机变量变换成标准正态分布密度函数正态分布的检验根据密度函数的形态进行判断用频数直方图的上方边缘作为密度函数的近似判断随机变量是否服从正态分布根据偏度峰度特征检验利用观测样本计算三阶矩和四阶矩的近似值与后面讲的抽样分布有关偏度和峰度近似值如果接近0和3 则认为随机变量服从正态分布也称通过了正态性检验二分布标准正态分布随机变量的平方所服从的分布取值范围是显然是非对称分布数学期望等于自由度方差为2 三 t分布设服从标准正态分布服从自由度为的分布则随机变量服从自由度为的t分布t分布概率密度函数形态类似标准正态分布方差为比标准正态分布平坦尾部厚四 F分布服从自由度的分布服从自由度的分布相互独立那么随机变量服从的分布称为有两个自由度和的F分布记为六随机变量的收敛性和极限理论一随机变量的收敛性大量随机变量之和的概率分布是通过随机变量序列极限分布表现的极限定理的基础是随机变量序列的收敛性随机变量序列的收敛性与一般变量不同是概率概率分布或者分布特征的收敛性有依分布收敛和依概率收敛等不同的收敛性定义将导致不同的极限定理分布函数弱收敛对于分布函数序列为了简单起见常常直接写成如果存在函数使得在的每个连续点上都成立则称弱收敛于依分布收敛设随机变量序列的分布函数序列为随机变量的分布函数为如果弱收敛于则称依分布收敛于依概率收敛对于随机变量序列和随机变量如果或对任意的成立则称依概率收敛于有时候也称的概率极限是并可记为二大数法则伯奴利大数定理独立同分布场合的大数定律三中心极限定理独立同分布场合的中心极限定理非独立同分布场合的中心极限定理第二节参数估计和假设检验随机变量取值往往无穷多不可能通过全面调查了解总体分布只能根据从总体抽取的部分样本推断总体情况这称为统计推断包括参数估计和假设检验等计量经济回归分析的观测数据相当于随机变量总体抽取的样本回归分析就是根据样本推断总体情况就是一种统计推断因为计量经济分析的样本不是标准抽样方法抽取而是通过观测得到因此计量经济分析的统计推断有一定特殊性一随机抽样和抽样分布一随机抽样和样本统计量样本即随机变量分布总体的部分样本点构成的子集样本是抽样得来的抽样有不同的方法计量经济分析的数据一般都是简单随机抽样的样本样本统计量样本均值样本方差二抽样分布样本统计量的概率分布称为抽样分布抽样分布可以考虑正态总体的小样本精确分布对其他总体则主要考虑大样本极限分布正态总体小样本分布样本均值方差的分布样本线性函数的分布一般总体的大样本抽样分布中心极限定理与渐近正态分布二参数估计一最大似然估计二矩估计三最小二乘估计四估计量的性质五参数估计方法的归纳和比较一最大似然估计Maximumlikelihoodestimates ML 基本原理随机变量的分布参数水平在数据生成过程中起着作用不同参数水平生成特定数据集的可能性不同可以根据生成样本的可能性大小估计参数水平根据事物出现的概率几率可能性的大小推断参数水平最大似然估计的核心是似然函数 Likelihoodfunction 即样本同时出现的联合概率密度令似然函数达到最大的参数估计值称为参数的最大似然估计对数似然函数例2 11 正态分布参数的估计已知一随机变量服从未知参数的正态分布并且已经观测到一组样本要求估计分布参数例2 12 泊松分布参数的估计观测到一个服从未知参数的泊松分布的随机变量的10个数据的样本这些数据分别为5 0 1 2 3 2 3 4 1 1 要求估计出该泊松分布的未知分布参数根据泊松分布的概率公式该随机变量的数值为的概率为10个数据出现的联合分布概率为这个联合分布概率就是生成上述10个数据的似然函数记作即它的对数似然函数是对数函数的单调性求导可得的最大似然估计必须满足所以二矩估计ofmoments MM 矩估计也称为矩方法基本原理样本统计量依概率收敛于未知参数的一个函数可利用样本矩作为总体矩的近似获得未知参数的估计值三最小二乘估计LeastSquare 最小二乘法是估计随机变量参数最基本的方法也是计量经济分析中运用最广泛的参数估计方法基本原理根据随机变量理论值与实际观测值的偏差平方和最小估计参数最小二乘估计不要求知道随机变量服从的分布四估计量的性质线性性无偏性渐近无偏有效性渐近有效一致性最小方差线性无偏估计BLUE均方误 Meansquarederror MSE 五参数估计方法的归纳和比较最大似然估计 1 ML小样本不保证无偏和有效但一般有一致估计渐近正态分布和渐近有效的大样本性质如果参数存在最小方差边界估计量一定是最大似然估计量 2 最大似然估计在线性非线性回归联立方程组模型各种特殊变量和数据模型时间序列分析的概率模型等中都有重要应用 3 最大似然估计需要知道随机变量的概率分布形式这是构造似然函数的基础矩估计1 矩估计小样本也不保证无偏和有效但根据独立同分布随机变量的极限定理矩估计通常具有大样本一致估计的性质 2 矩估计主要适用要求一致估计但对有效性相对不重视的参数估计问题 3 矩估计可以不需要知道随机变量服从的概率分布名称而直接进行估计 4 矩估计在计量经济分析中同样也有许多应用最小二乘估计 1 在满足假设的经典计量经济模型中最小二乘估计满足线性性无偏性有效性和一致性等性质而且方便应用 2 最小二乘估计还可以通过各种扩展以适应某些不符合经典假设的模型 3 最小二乘估计并不要求知道随机变量的概率分布形式参数估计方法有不同特点但没有严格的优劣之分各种参数估计方法既可能一致也可能有差异应结合具体情况选用三统计检验一统计检验基本原理二参数的置信区间三假设检验第三节随机过程及其平稳性时间序列数据是计量经济分析最普遍使用的数据类型时间序列数据可以看成是由随机过程生成的是特定随机过程的实现以时间序列数据为基础的计量经济分析随机过程理论有密切关系随机过程是概率统计理论的另一重要分支一随机过程及其概率分布一随机过程定义二随机过程的分布特征1 有限维分布函数族2 均值和方差函数二随机过程的平稳性一随机过程平稳性的定义和意义1 严平稳2 弱平稳3 计量经济分析与时间序列平稳性二平稳和非平稳随机过程的例子1 白噪声过程2 独立同分布过程3 随机游走和单位根过程三平稳性的检验1 图形判断2 自相关图检验3 单位根检验平稳时间序列图形非平稳时间序列图形趋势平稳时间序列图形