为什么当excel偏度系数数Bs>0时,该分布是右偏;Bs<0时,左偏?

总体分布的正态性检验一般采取Jarque-Bera检验方法。
1. JBTest检验的定义:
在统计学中,Jarque-Bera检验是对样本数据是否具有符合正态分布的偏度和峰度的拟合优度的检验。该检验以卡洛斯&哈尔克和阿尼&K&贝拉(Carlos Jarque and Anil K. Bera)来命名。
JB统计量定义为:
这里的n为观测数目(自由度),S是样本偏度系数,K是样本峰度系数。
对正态分布而言,JB统计量渐进的服从自由度为2的卡方分布。
Jarque和Bera证明了在正态性假定下,如果JB统计量的相伴概率值小于设定的概率水平,则拒绝原假设,不认为样本概率服从正态分布;反之,则接受原假设。
2.&关键名词:
这里有几个关键名词,包括偏度、峰度、卡方分布。
偏度系数(Skewness):
偏度系数是描述分布偏离对称性程度的特征数,是样本概率密度函数对称性的度量。
当分布左右对称时,偏度系数为0;当偏度系数大于0时,即中位在右侧,该分布为右偏;当偏度系数小于0时,中位在左侧,该分布左偏。
较大的正值表示其分布具有右侧较长尾部,较大的负值表明有左侧较长尾部。
通常用三阶中心矩除以标准差的三次方来计算,
标准差为:
峰度系数(Kurtosis):
峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标,形象的说,就是对概率密度函数的&胖瘦&的度量。
统计上是用四阶中心矩来测定峰度的。实验研究表明,偶阶中心矩的大小与图形分布的峰度有关。其中的二阶中心矩就是数据的方差,它在一定程度上可以反映分布的峰度,但有时方差相同的数据却有不同的峰度,因此就利用四阶中心矩来反映分布的尖峭程度。
实际采用四阶中心矩与标准差的四次方的比值作为衡量峰度的指标。
对正态分布而言,偏度系数S为0,峰度系数K为3。
卡方分布:
3. Matlab的Jbtest
调用格式为:
H = jbtest(X)
H = jbtest(X,alpha)
[h,p,JBSTAT,CV]=jbtest(x,alpha)
H = jbtest(x,alpha,mctol)
输入值:以alpha (默认0.05)显著水平对数据x进行Jarque-Bera检验
h为测试结果,如果h=0,则认为x是服从正态分布的;如果h=1,则可以否定x服从正态分布;
p为接受假设的概率,p越接近于0,则可以是拒绝正态分布的原假设。
JBSTAT为测试统计量的值;
CV为是否拒绝原假设的临界值,主要是用JBSTAT与CV比较,超过临界值就认为不服从正态分布。
若变量服从正态分布,则S为零,K为3,因而JB统计量的值为零;如果变量不是正态变量,则JB统计量将为一个逐渐增大值。JB统计量的定义表明,任何对此(偏度为0,峰度为3)的偏离都会使得JB统计量增加。
通常要对一组样本进行正态性检验,在Matlab中,一种方法是:用normplot画出样本,如果在一条直线上,则样本服从正态分布,否则不服从正态分布。
Matlab提供了更正式的检验方法:
kstest(Kolmogorov-Smirnow)正态性检验,将样本与标准正态样本(均值0,方差1)进行对比,不符合则返回1,符合则返回0.
lillietest(Lilliefors test),与kstest不同,检验目标不是标准正态样本,而是具有与样本相同均值和方差的正态分布。
jbtest(Jarque-Bera test):与lillietest相似,但不适用于小样本情况。
CV:即Critical Value临界值,与Jarque-Bera检验中的显著水平alpha对应;返回一个非负标量值。如果alpha范围为&[0.001,0.50],并且样本数目不大于2000,那么jbtest直接在预先算好的CV值表中查找和插值。如果使用了mctol,那么jbtest通过Monte Carlo模拟来确定CV值。当jbstate&CV时,假设不成立。
mctol:即Maximum Monte Carlo standard error(最大蒙特卡洛标准差)。如果设定了mctol值,jbtest直接计算Monte Carlo近似值p,而不是通过预先算好的CV值表来进行插值。jbtest通过选择足够大的Monte Carlo重复数,使得计算的蒙特卡洛标准差p小于mctol。
阅读(...) 评论()基于python的全面数据探索(house prices) - 简书
基于python的全面数据探索(house prices)
总体思路:
理解问题:查看每个变量并且根据他们的意义和对问题的重要性进行哲学分析。单因素研究:只关注因变量(SalePrice)并且进行更深入的了解。多因素研究:分析因变量和自变量之间的关系。基础清洗:清洗数据集并且对缺失数据,异常值和分类数据进行一些处理。检验假设:检查数据是否和多元分析方法的假设达到一致。
1、准备工作:预期与验证
为了理解数据,我们观察每个变量并且尝试去理解每一个变量的意义以及这个变量和目标问题的关系,虽然这个过程是耗时的,但是给我们感知数据。
为了分析熟悉数据,我们可以用下面的列来创建excel电子表格。(1)变量:变量名(2)类型:变量类型的标识。一般有两种可能的值:数值型和类别型。数值型意味着变量是数字,类别型意味着变量值是类别。(3)划分:变量分块的标识。根据变量的意义分成不同的段。也就是有哪几方面的特征。(4)预期:我们可以预测变量对房价的影响,我们可以用高、中、低来作为房价的可能预期值。(5)总结:快速浏览一遍数据之后,总结一下特征的重要性(6)注释:给一些能想到的注释。
虽然‘类型’和‘划分’仅仅用于未来预测的参考,比如F1上不去,我改优化哪方面的特征等,但是‘预期’这一列很重要,它给我们第六感去判断哪个特征更重要。为了确定预期列,我们需要仔细阅读特征描述文档,并且问自己:(1)当我们买房子会不会考虑这个特征?(2)这个特征的重要性怎么样?(3)这类信息在别的特征中是否表述过?
当我们做完上面的事情以后,我们可以过滤电子表格,并且仔细观察那些高预期、我们自己认为重要的特征。然后,直奔主题,我们可以绘制这些我们认为重要的变量和saleprice之间的关系散点图,并且在结论这一栏给出我们预期的重要性。
经历上面的过程,得到了结论,总结出了下面四个特征有很重要的作用:OverallQual、YearBuilt、TotalBsmtSF、GrLivArea。但是根据散点图判断,是有局限性的,因为和我们的认知违背,我们认为location是最重要的特征,如果用箱形图,可能会有不同的结论。
2.首先:分析单变量SalePrice
SalePrice是我们是去预测的值。(1)描述统计结论,比如说均值、最值、中值、分位数、样本数。
最小值不是一个非零的值,没有一看一起就很异常的数据。最值都在可以接受的合理范围内。(2)绘制直方图
用seaborn绘图,得出结论:-偏离正态分布-数据正偏-有峰值
数据偏度和峰度度量:
偏度(Skewness)是描述某变量取值分布对称性的统计量。如果偏度=0,和正态分布的偏度相同;Skewness&0,长尾巴拖在右边;Skewness&0,长尾巴拖在左边,Skewness越大,分布形态偏移程度越大。
峰度(Kurtosis)是描述某变量所有取值分布形态陡缓程度的统计量。它是和正态分布相比较的:Kurtosis=0,与正态分布的陡缓程度相同;Kurtosis&0,比正态分布的高峰更加陡峭;反之亦然。
3.与数值类型的关系
(1)grlivarea/saleprice的散点图绘制首先观察一下saleprice和数值型变量grlivarea之间的关系。我们还是可以观察到整体的趋势的,随着grlivarea的增大,saleprice有变高的趋势。存在线性关系!
(2)totalbsmtsf/saleprice的散点图绘制'TotalBsmtSF' is also a great friend of 'SalePrice' but this seems a much more emotional relationship! Everything is ok and suddenly, in a strong linear (exponential?) reaction, everything changes. Moreover, it's clear that sometimes 'TotalBsmtSF' closes in itself and gives zero credit to 'SalePrice'.通过观察TotalBsmtSF和SalePrice之间有线性关系或者指数关系,当TotalBsmtSF=0的时候,TotalBsmtSF对SalePrice没有影响。
4.与类别类型的关系
(1)overallqual/saleprice的箱形图这里有一个问题,为什么我们不用散点图了呢?那么先画一个散点图看下效果。如下图:
可见也是有相互关系的,如果用箱形图表示的话,会更加清晰:
(2)YearBuilt/saleprice的箱形图两个变量之间的关系没有很强的趋势性,但是可以看出建筑时间较短的房屋价格更高。
(1)GrLivArea和 TotalBsmtSF与SalePrice似乎线性相关,并且都是正相关。 对于 TotalBsmtSF,线性关系的斜率十分的高。(2)OverallQual和 YearBuilt与 SalePrice也有关系。OverallQual的相关性更强, 箱型图显示了随着整体质量的增长,房价的增长趋势。
我们只分析了四个变量,但是还有许多其他变量我们也应该分析,这里的技巧在于选择正确的特征,选择哪些特征(特征选择)而不是定义它们之间的复杂关系(特征工程),它们之间的复杂关系可以通过模型学习。
5 客观分析
上面的分析过于主观,我们应该更客观的去分析。主要有三方面的分析:-相关矩阵热图-SalePrice相关矩阵热图-最相关变量之间的散点图
(1)相关矩阵热图
热图是观察特征和特征、特征和label之间关系的一种快速的方式。首先,最吸引注意的是两个红色方块。第一处指向TotalBsmtSF和1stFlrSF这两个变量,第二处指向Garage相关的变量。这两块显示了TotalBsmtSF和1stFlrSF的相关性、GarageCar和GarageArea的相关性很大。事实上,这种关联性很强,暗示它们存在多重共线性。我们能够推断当变量间具有多重共线性,那么它们给出的信息也基本上是一样的。Heatmaps恰恰可以检测多重共线性的情况并决定选择哪些特征,所以是一个非常重要的工具。
另外观察特征和SalePrice之间的关系,可以看到GrLivArea、TotalBsmtSF、OverallQual,也看到了一些其他的变量应该纳入我们考虑。
(2)SalePrice相关矩阵热图筛选与SalePrice相关性强的特征,重点观察。
从图中可以看出:
(a)'OverallQual', 'GrLivArea' 以及 'TotalBsmtSF' 与 'SalePrice'有很强的相关性。(b)'GarageCars' 和 'GarageArea' 也是相关性比较强的变量. 车库中存储的车的数量是由车库的面积决定的,它们就像双胞胎,所以不需要专门区分'GarageCars' 和 'GarageArea' ,所以我们只需要其中的一个变量。这里我们选择了'GarageCars'因为它与'SalePrice' 的相关性更高一些。(c) 'TotalBsmtSF' 和 '1stFloor' 与上述情况相同,我们选择 'TotalBsmtSF' 。(d)'FullBath'几乎不需要考虑。(e)'TotRmsAbvGrd' 和 'GrLivArea'也是变量中的双胞胎。(f)'YearBuilt' 和 'SalePrice'相关性似乎不强。
(3)SalePrice和相关变量的散点图
尽管我们已经知道了一些主要特征,这一丰富的散点图给了我们一个关于变量关系的合理想法。
其中,'TotalBsmtSF' 和 'GrLiveArea'之间的散点图是很有意思的。我们可以看出这幅图中,一些点组成了线,就像边界一样。大部分点都分布在那条线下面,这也是可以解释的。地下室面积和地上居住面积可以相等,但是一般情况下不会希望有一个比地上居住面积还大的地下室。
'SalePrice' 和'YearBuilt' 之间的散点图也值得我们思考。在“点云”的底部,我们可以观察到一个几乎呈指数函数的分布。我们也可以看到“点云”的上端也基本呈同样的分布趋势。并且可以注意到,近几年的点有超过这个上端的趋势。
4.缺失数据
关于缺失数据需要思考的重要问题: (1)这一缺失数据的普遍性如何? (2)缺失数据是随机的还是有律可循?
这些问题的答案是很重要的,因为缺失数据意味着样本大小的缩减,这会阻止我们的分析进程。除此之外,以实质性的角度来说,我们需要保证对缺失数据的处理不会出现偏离或隐藏任何难以忽视的真相。
下面对各个特征缺失值的情况进行统计:
(1)当超过15%的数据都缺失的时候,我们应该删掉相关变量且假设该变量并不存在。根据这一条,一系列变量都应该删掉,例如'PoolQC', 'MiscFeature', 'Alley'等等,这些变量都不是很重要,因为他们基本都不是我们买房子时会考虑的因素。
(2)'GarageX' 变量群的缺失数据量都相同,由于关于车库的最重要的信息都可以由'GarageCars' 表达,并且这些数据只占缺失数据的5%,我们也会删除上述的'GarageX' 变量群。同样的逻辑也适用于 'BsmtX' 变量群。
(3)对于 'MasVnrArea' 和 'MasVnrType',我们可以认为这些因素并不重要。除此之外,他们和'YearBuilt' 以及 'OverallQual'都有很强的关联性,而这两个变量我们已经考虑过了。所以删除 'MasVnrArea'和 'MasVnrType'并不会丢失信息。
(4)最后,由于'Electrical'中只有一个损失的观察值,所以我们删除这个观察值,但是保留这一变量。
总结:处理空值,我们删掉所有有较多空值的特征,除了特征Electrical,因为只有一个缺失值,所以删除含该空值的样本即可。
5.异常值处理
异常值也是我们应该注意的东西。因为异常值能明显的影响我们的模型,并且是一个有价值的信息来源,帮助我们对特定行为有更多的见解。异常值是一个复杂的主题,并且值得研究。在这里,我们将用SalePrice的标准差和一系列的散点来进行快速分析。
(1)单因素分析这里的关键在于如何建立阈值,定义一个观察值为异常值。我们对数据进行正态化,意味着把数据值转换成均值为0,方差为1的数据。
进行正态化后,可以看出:低范围的值都比较相似并且在0附近分布。高范围的值离0很远,并且7点几的值远在正常范围之外。
现在看,我们不把任何值作为异常值,但是我们应该注意这两个大于7的值。
(2)双变量分析
这是之前GrLivArea和SalePrice关系散点图:(1)有两个离群的'GrLivArea' 值很高的数据,我们可以推测出现这种情况的原因。或许他们代表了农业地区,也就解释了低价。 这两个点很明显不能代表典型样例,所以我们将它们定义为异常值并删除。
(2)图中顶部的两个点是七点几的观测值,他们虽然看起来像特殊情况,但是他们依然符合整体趋势,所以我们将其保留下来。
删除异常点:
“房价”到底是谁?
这个问题的答案,需要我们验证根据数据基础进行多元分析的假设。
我们已经进行了数据清洗,并且发现了“SalePrice”的很多信息,现在我们要更进一步理解‘SalePrice’如何遵循统计假设,可以让我们应用多元技术。
应该测量4个假设量:(1)正态性:它的重要在于很多统计检验是基于正态分布的,在房价预测的问题中,我们只检查了单变量的正态性。但是单变量正态性不能确保多变量的正态性,但是会其帮助作用。(2)同方差性:假设在预测变量的范围因变量表现出同等水平的方差(3)线性:通过观察散点图,看是否为线性关系,如果不是,需要数据转换,但是大多数情况下都是满足线性关系的。(4)相关错误缺失
应主要关注以下两点:直方图 - 峰度和偏度。正态概率图 - 数据分布应紧密跟随代表正态分布的对角线。
首先,观察SalePrice的分布曲线和正态概率图,我们和正态曲线相比,有偏移,并且峰度大,而且概率图偏离对角线,所以,SalePrice并不是正态的。但是,信息没有丢失,简单的数据变换就可以解决这个问题,为了防止正偏,log变换作用很好。
从图中可以看出:显示出了偏度大量为0的观察值(没有地下室的房屋)含0的数据无法进行对数变换,可用log(x+1)
同方差性:
最好的测量两个变量的同方差性的方法就是图像。偏离同方差的特点是:散点呈锥形或者钻石型。
未进行log变换前,明显是锥形,偏离同方差性。
这就是正态化的作用,我们仅仅需要保证特征的正态化,就能解决同方差的问题。
6.虚拟变量
对类别变量进行虚拟编码:
整个方案中,我们使用了很多《多元数据分析》中提出的方法。我们对变量进行了哲学分析,不仅对'SalePrice'进行了单独分析,还结合了相关程度最高的变量进行分析。我们处理了缺失数据和异常值,我们验证了一些基础统计假设,并且将类别变量转换为虚拟变量。
但问题还没有结束,我们还需要预测房价的变化趋势,房价预测是否适合线性回归正则化的方法?是否适合组合方法?或者一些其他的方法?这篇文章解决了数据预处理的问题,预处理后,我们选择正确的模型算法进行拟合。
参考文章:
梦想还是要有的,万一实现了呢????  一、使用标准差为单位计量的偏度系数
  该偏度系数记为SK,计算公式为
  SK是无量纲的量,取值通常在-3~+3之间,其绝对值越大,表明偏斜程度越大。当分布呈右偏态时,SK&0,故也称;当分布为左偏态时,SK&0,故也称。但除非是分组频数分布数据,否则SK公式中的众数M0有很大的随机性。
  二、使用中心矩计量的偏度系数
  该偏度系数是用三阶中心矩除以标准差的三次方来度量偏斜程度,记为,计算公式为
  使用三阶中心距计量的偏度系数称为三阶中心矩。
  偏度系数 可以适用任何数据。 和SK的计算方法不同,因此根据同一资料计算的结果也不相同。
  设随机变量X的三阶矩存在,则称三阶中心矩除以标准差的三次方为
  为X的偏度系数。偏度系数用以描述正态分布的分布形状特征。
  测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,g1&0,表示负偏,即均值在峰值的左边;g1&0,表示正偏,即均值在峰值的右边;g1=0,表示对称分布(如下图)。
  在概率论中其表达式为 ∫(x-u)^3 f(x)dx。
&|&相关影像
互动百科的词条(含所附图片)系由网友上传,如果涉嫌侵权,请与客服联系,我们将按照法律之相关规定及时进行处理。未经许可,禁止商业网站等复制、抓取本站内容;合理使用者,请注明来源于。
登录后使用互动百科的服务,将会得到个性化的提示和帮助,还有机会和专业认证智愿者沟通。
此词条还可添加&
编辑次数:4次
参与编辑人数:4位
最近更新时间: 21:44:22
申请可获得以下专属权利:
贡献光荣榜& 概率基础和R语言
概率基础和R语言
,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。
R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。
要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计知识,同时还要有创新精神,把R语言发挥到各个领域。让我们一起动起来吧,开始R的极客理想。
关于作者:
张丹(Conan), 程序员Java,R,PHP,Javascript
weibo:@Conan_Z
转载请注明出处:
R语言是统计语言,概率又是统计的基础,所以可以想到,R语言必然要从底层API上提供完整、方便、易用的概率计算的函数。让R语言帮我们学好概率的基础课。
随机变量的数字特征
1. 随机变量
什么是随机变量?
离散型随机变量
连续型随机变量
1). 什么是随机变量?
随机变量(random variable)表示随机现象各种结果的实值函数。随机变量是定义在样本空间S上,取值在实数载上的函数,由于它的自变量是随机试验的结果,而随机实验结果的出现具有随机性,因此,随机变量的取值具有一定的随机性。
R程序:生成一个在(0,1,2,3,4,5)的随机变量
> S sample(S,1)
> sample(S,1)
> sample(S,1)
2). 离散型随机变量
如果随机变量X的全部可能的取值只有有限多个或可列无穷多个,则称X为离散型随机变量。
R程序:生成样本空间为(1,2,3)的随机变量X,X的取值是有限的
> S X<-sample(S,1);X
3). 连续型随机变量
随机变量X,取值可以在某个区间内取任一实数,即变量的取值可以是连续的,这随机变量就称为连续型随机变量
R程序:生成样本在空间(0,1)的连续随机函数,取10个值
> runif(10,0,1)
[1] 0.........1883553
[10] 0.3741653
2. 随机变量的数字特征
各种分步的期望和方差
常用统计量(最大,最小,中位数,四分位数)
矩(原点矩,中心矩,偏度,峰度)
协方差矩阵
1). 数学期望(mathematical expectation)
离散型随机变量:的一切可能的取值xi与对应的概率Pi(=xi)之积的和称为该离散型随机变量的数学期望,记为E(x)。数学期望是最基本的数学特征之一。它反映随机变量平均取值的大小。
R程序:计算样本(1,2,3,7,21)的数学期望
> S mean(S)
连续型随机变量:若随机变量X的分布函数F(x)可表示成一个非负可积函数f(x)的积分,则称X为连续性随机变量,f(x)称为X的概率密度函数,积分值为X的数学期望,记为E(X)。
2). 方差(Variance)
方差是各个数据与平均数之差的平方的平均数。在概率论和数理统计中,方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。
设X为随机变量,如果E{[X-E(X)]^2}存在,则称E{[X-E(X)]^2}为X的方差,记为Var(X)。
R程序:计算样本(1,2,3,7,21)的方差
> S var(S)
3). 标准差(Standard Deviation)
标准差是方差的算术平方根sqrt(var(X))。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。
R程序:计算样本(1,2,3,7,21)标准差
[1] 8.258329
4). 各种分步的期望和方差
离散型分布:两点分布,二项分布,泊松分布等
连续型分布:均匀分布,指数分布,正态分布,伽马分布等
对于某一特定场景,其所符合的分布规律一般先验给出
请参考文章:
5). 常用统计量
众数(Mode): 一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。
R程序:计算样本(1,2,3,3,3,7,7,7,7,9,10,21)的众数
> S names(which.max(table(S)))
最小值(minimum): 在给定情形下可以达到的最小数量或最小数值
R程序:计算样本(2,3,3,3,7,7,7,7,9,10,21)的最小值
> S min(S)
#最小值的索引
> which.min(S)
最大值(maximum): 在给定情形下可以达到的最大数量或最大数值
R程序:计算样本(2,3,3,3,7,7,7,7,9,10,21)的最大值
> S max(S)
#最大值的索引
> which.max(S)
中位数(Medians): 是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数。
R程序:计算样本(1,2,3,4,5)的中位数
> S median(S)
四分位数(Quartile): 用于描述任何类型的数据,尤其是偏态数据的离散程度,即将全部数据从小到大排列,正好排列在上1/4位置叫上四分位数,下1/4位置上的数就叫做下四分位数.
R程序:计算样本(1,2,3,4,5,6,7,8,9)的四分位数
> S quantile(S)
> fivenum(S)
[1] 1 3 5 7 9
通用的计算统计函数:
R程序:计算样本(1,2,3,4,5,6,7,8,9)的统计函数
> S summary(S)
Min. 1st Qu.
Mean 3rd Qu.
6). 协方差(Covariance)
协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。设X,Y为两个随机变量,称E{[X-E(X)][Y-E(Y)]}为X和Y的协方差,记录Cov(X,Y)。
R程序:计算X(1,2,3,4)和Y(5,6,7,8)的协方差
> X Y cov(X,Y)
[1] 1.666667
7). 相关系数(Correlation coefficient)
相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度。当Var(X)>0, Var(Y)>0时,称Cov(X,Y)/sqrt(Var(X)*Var(Y))为X与Y的相关系统。
R程序:计算X(1,2,3,4)和Y(5,7,8,9)的相关系数
> X Y cor(X,Y)
[1] 0.9827076
原点矩(moment about origin): 对于正整数k,如果E|X^k|存在,称V^k=E(X^k)为随机变量X的k阶原点矩。X的数学期望是X的一阶原点矩,即E(x)=v1.
R程序:计算S(1,2,3,4,5)的一阶原点矩(均值)
> S mean(S)
中心矩(moment about centre): 对于正整数k,如果EX存在,且E(|X - EX|^k)也存在,则称E[X-EX]^k为随机变量X的k阶中心矩。如X的方差是X的二阶中心矩,即D(X)=E{[X-E(X)]^2}
R程序:计算S(1,2,3,4,5)的二阶中心矩(方差)
> S var(S)
距是广泛应用的一类数学特征,均值和方差分别就是一阶原点矩和二阶中心矩。
偏度(skewness): 是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。设分布函数F(x)有中心矩u2=E(X -E(X))^2, u3 = E(X -E(X))^3,则Cs=u3/u2^(3/2)为偏度系数。
当Cs>0时,概率分布偏向均值右则,Cs<0时,概率分布偏向均值左则。
R语言:计算10000个正态分布的样本的偏度
> library(PerformanceAnalytics)
> S skewness(S)
> hist(S,breaks=100)
峰度(kurtosis): 又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。峰度刻划不同类型的分布的集中和分散程序。设分布函数F(x)有中心矩u2=E(X -E(X))^2, u4=E(X -E(X))^4,则Ck=u4/(u2^2-3)为峰度系数。
R语言:计算10000个正态分布的样本的峰度,(同偏度的样本数据)
> library(PerformanceAnalytics)
> kurtosis(S)
> hist(S,breaks=100)
8). 协方差矩阵(covariance matrix)
协方差矩阵是一个矩阵,其每个元素是各个向量元素之间的协方差。是从标量随机变量到高维度随机向量的自然推广。设X = (X1,X2, ... ,Xn), Y = (Y1, Y2, ..., Ym) 为两个随机变量,则Cov(X,Y)为X,Y的协方差矩阵.
R语言:计算协方差矩阵
> x=as.data.frame(matrix(rnorm(10),ncol=2))
3. 极限定理
中心极限定理
1). 大数定律
大数定律(law of large numbers),又称大数定理,是判断随机变量的算术平均值是否向常数收敛的定律,是概率论和数理统计学的基本定律之一。
设X1,X2,...,Xk, 是随机变量序列且E(Xk)存在(k=1,2,3...), Yn = 1/n * (X1 +X2+ ... + Xk),对于任意给定的ε > 0, 有
则称随机变量序列{Xk}服从大数定律。
三个重要定律
Bernoulli大数定律
Chebyshev(切比雪夫)大数定律
Khintchin(辛钦)大数定律
Bernoulli(贝努力)大数定律
设Na是n次独立重复试验中A发生的次数,p是事件A在每次试验中发生的概率,则对任意的正数ε > 0,有
Bernoulli大数定律揭示了“频率稳定于概率”说法的实质。
Chebyshev(切比雪夫)大数定律
设随机变量X1,X2,...Xk相互独立,且具有相同的期望与方差:E(Xk)=μ, Var(Xk) = σ^2, (k = 1, 2, ...), 则对于任意的正数ε > 0, 有
Khintchin(辛钦)大数定律
设随机变量X1,X2...Xk相互独立,服从相同的分布,且其期望E(Xk) = μ , (k = 1, 2,...), 则对于任意的正数ε > 0, 有
若对随机变量序列X1, X2, ...Xk存在常数a, 使得对于任意的正数ε > 0, 有
成立,则称Xk依概率收敛于a,则Chebyshev大数定律和Khintchin大数定律有
大数定律定理
设随机变量X具有期望E(X)=μ,方差Var(X) = σ2, 则对于任意ε > 0, 有
R语言:假设投硬币,正面概率是0.5,投4次时,计算得到2次正面的概率?根据大数定律,如果投是10000次,计算5000次正面的概率?
#计算2次正面的的概率
> choose(4,2)/2^4 #choose组合数的计算:从4中选择2个
#计算5000次正面的的概率
> pbinom(, 0.5) #pbinom二向分布,5000为分位数,产生10000个随机数,每个概率0.5
[1] 0.5039893
2). 中心极限定理(central limit theorem)
中心极限定理是判断随机变量序列部分和的分布是否渐近于正态分布的一类定理。在自然界及生产科学实践中,一些现象受到许多相互独立的随机因素的影响,如果每个因素的影响都很小,那么部的影响可以看作是服从正太分布。中心极限定理正是从数学上论证了这一现象。
设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布。
两个最著名的中心极限宣
列维定理(Lindburg-Levy)
拉普拉斯定理(de Movire - Laplace)
列维定理(Lindburg-Levy)
即独立同分布随机变量序列的中心极限定理。它表明,独立同分布、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限。
设随机变量X1,X2,......Xn,......相互独立,服从同一分布,且具有数学期望和方差:E(Xk)=μ,D(Xk)=σ^2>0(k=1,2....),则随机变量之和的标准化变量的分布函数Fn(x)对于任意x满足limFn(x)=Φ(x),n→∞ 其中Φ(x)是标准正态分布的分布函数。
拉普拉斯定理(de Movire - Laplace)
即服从二项分布的随机变量序列的中心极限定理。它指出,参数为n, p的二项分布以np为均值、np(1-p)为方差的正态分布为极限。
R语言:中心极限定理模拟,从指数分布到正态分布
if (!require(animation)) install.packages("animation")
library(animation)
ani.options(interval = 0.1, nmax = 100)
par(mar = c(4, 4, 1, 0.5))
掌握R语言,就可以快速的把概率的知识,用R语言进行现实,非常有利于帮助我们解决生活中遇到的问题。
参考资料:
图书:统计建模与R软件
转载请注明出处:
This entry was posted in
Designed by}

我要回帖

更多关于 偏度系数 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信