相关系数
可用来衡量两个变量之间的相关性的大小
概念
总体:所要考察对象的全部个体叫做总体. 我们总是希望得到总体数据的一些特征(我国10年进行一次的人口普查得到的数据就是总体数据)
样本:从总体中所抽取的一部分个体叫做总体的一个样本
使用样本均值、样本标准差来估计总体的均值(平均 水平)和总体的标准差(偏离程度)
协方差:
从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然
Pearson相关系数
你必须先确认这两个变量是线性相关的,然后这个相关系数才能 告诉你他俩相关程度如何。
总体皮尔逊Pearson相关系数
描述变化形状 消除了量纲的影响
样本皮尔逊Pearson相关系数
相关系数大小的解释
事实上,比起相关系数的大小,我们往往更关注的是显著性。 (假设检验)
spearman相关系数
应用
进行假设检验的条件
一、实验数据通常假设是成对的来自于正态分布的总体。t检验是基于数据呈正态分布的假设的
二、实验数据之间的差距不能太大。皮尔逊相关性系数受异常值的影响比较大
三、每组样本之间是独立抽样的。构造t统计量时需要用到。
正态分布检验
JB检验
雅克‐贝拉检验(Jarque‐Beratest) 对于大样本(n>30)
基础知识:
偏度与峰度
构造统计量
假设检验
求出p值与0.05比较
实现函数
MATLAB中进行JB检验的语法:[h,p] = jbtest(x,alpha)
当输出h等于1时,表示拒绝原假设;h等于0则代表不能拒绝原假设。
alpha就是显著性水平,一般取0.05,此时置信水平为1‐0.05=0.95
x就是我们要检验的随机变量,注意这里的x只能是向量
Shapiro-wilk检验
小样本(3-50)
Q‐Q图
在统计学中,Q‐Q图(Q代表分位数Quantile)是一种通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法
是否近似在一条直线上 要求数据量非常大
首先选定 分位数 (分位数就是用概率作为依据将一批数据分开的那个点)的对应概率区间集合,在次概率区间上,点(x,y)对应于第一个分布的分位数x 与第二个分布 在和x相同概率区间上 相同的分位数
计算
皮尔逊相关系数
corrcoef函数:correlation coefficient相关系数
R = corrcoef(A) 返回A 的相关系数的矩阵,其中A 的列表示随机变量(指标),行表示观测值(样本)。
R = corrcoef(A,B) 返回两个随机变量A 和B (两个向量)之间的系数。
spearman
(1)corr(X , Y , ‘type’ , ‘Spearman’) 这里的X和Y必须是列向量
(2)corr(X, ‘type’ , ‘Spearman’) 这时计算X矩阵各列之间的斯皮尔曼相关系数
假设检验
一、
提出原假设H0与备择假设H1
原假设:皮尔逊相关系数为0
二、构造统计量
在原假设成立的条件下,利用我们]要检验的量构造出一一个符合某一分布的统计量(相当于一个一元函数)
spearman
小样本(30以下)
查临界值表即可
得到的与正态分布比较
三、进行假设检验
把得到的值代入统计量中,得到一个特定的值
由于我们知道统计量的分布情况,可以得出该分布的概率密度函数并给定一个置信区间