小言_互联网的博客

分类变量、有序变量与数值变量相关性分析方法总结及 R 语言应用

2813人阅读  评论(0)

一、分类 & 分类·相关性分析

分类变量分析方法的选取与数据状态有较大相关性,计数据样本量为n,两变量交叉单元格数据为T。

  1. 卡方检验
    卡方检验科用于对二维列联表的行变量和列变量的相关性检验,只能反应相关统计学意义,无法分析相关性强度
    · 当所有T≥5并且总样本量n≥40,用Pearson卡方进行检验
    · 当T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验
    「R语言」>chisq.test(x1,x2)
  2. Fisher精确检验
    可以用于检验任何 R × C R\times C R×C 数据之间的相关关系(也可用于分析2*2数据)。与卡方检验只能拟合近似分布不同的是,Fisher精确检验可以分析精确分布,更适合分析小样本数据。
    · T<1或n<40,则用Fisher’s检验
    「R语言」> fisher.test(x1,x2)
    · R 中fisher.test()可以在任意行列数大于等于2的二维列联表中使用,但不能用于2×2的列联表
  3. Cochran-Mantel-Haenszel检验
    Cochran-Mantel-Haenszel检验的原假设为:两个名义变量(x1,x2)在第三个变量(x3)的每一层中都是条件独立的
    「R语言」> mantelaen.test(x1,x2,x3)

二、有序 & 有序·相关性分析

(一)当有序分类不能认为是定距时(比如三等奖和二等奖的差异与二等奖和一等奖的差异一般不同):

  1. Spearman相关
    Spearman相关又称Spearman秩相关,用于检验至少有一个有序分类变量的关联强度和方向。
  2. Kendall’s tau-b相关系数
    Kendall’s tau-b 相关系数是用于检验至少有一个有序分类变量关联强度和方向的非参数分析方法。该检验与Spearman相关的应用范围基本一致,但更适用于存在多种关联的数据(如列联表)。

(二)当可以认为是定距时:

  1. Mantel-Haenszel 趋势检验
    该检验也被称为Mantel-Haenszel 卡方检验、Mantel-Haenszel 趋势卡方检验。该检验根据研究者对有序分类变量类别的赋值,判断两个有序分类变量之间的线性趋势

三、数值 & 数值·相关性分析

  1. Pearson相关系数
    Pearson相关系数度量了两个连续变量之间的线性相关程度
    「R语言」> cor( x1,x2,method=‘pearson’)

  2. Spearman相关系数
    Spearman等级相关系数可以衡量非线性关系变量间的相关系数,是一种非参数的统计方法,可以用于定序变量或不满足正态分布假设的等间隔数据;
    「R语言」> cor( x1,x2,method=‘spearman’)

  3. KKendall秩相关系数
    Kendall秩相关系数也是一种非参数的等级相关度量,类似于Spearman等级相关系数。
    「R语言」> cor( x1,x2,method=‘kendall’)

  • 「R」stata包:chisq.test() , fisher.test(), mantelhaen.test() , cor()
    -cor() 函数最重要的参数为 X,use,method。
    ---- X即指定分析的变量;
    ---- use指定缺失值处理的方法:all.obs则假设不存在缺失数据,遇到缺失数据时将会报错;everything遇到缺失数据时,结果将返回missing;complete.obs进行行删除;pairwise.complete.obs则成对删除
    ---- method指明计算相关系数的方法:pearson、spearman、kendall

四、分类 & 有序·相关性分析

(一)有序变量 X 1 X_1 X1 & 二分类变量 X 2 X_2 X2

  1. 无因果关系:
    1.1 Biserial秩相关:
    Biserial秩相关可以用于分析二分类变量和有序分类变量之间的相关性。在用二分类变量预测有序分类变量时,该检验又称为Somers’ d检验。此外,Mann-Whitney U检验也可以输出Biserial秩相关结果。

  2. 有序变量为因变量:
    2.1 有序Logistic回归
    有序Logistic回归在本质上并不是为了分析二分类变量和有序分类变量之间的相关性。但我们仍可以用有序logistic回归及其对应的OR值判断这两类变量之间的统计学关联。

  3. 二分变量为因变量:
    3.1 Cochran-Armitage 检验
    Cochran-Armitage 检验又称Cochran-Armitage 趋势检验,常用于分析有序分类自变量和二分类因变量之间的线性趋势。该检验可以判断随着有序分类变量的增加,二分类因变量比例的变化趋势,是对其线性趋势的统计学分析。
    3.2 Mantel-Haenszel卡方检验:
    Mantel-Haenszel卡方检验也称线性趋势检验(Test for Linear Trend)或定序检验(Linear by Linear Test)。要求一个变量是有序的,另一个变量可为二分类也可为多分类。
    3.3 Cochran-Armitage趋势检验:
    Cochran-Armitage 趋势检验要求一个变量是有序分类变量,另一个变量是二分类变量。

(二)有序变量 X 1 X_1 X1 & 多分类变量 X 2 X_2 X2

  1. Mantel-Haenszel卡方检验:
    Mantel-Haenszel卡方检验也称线性趋势检验(Test for Linear Trend)或定序检验(Linear by Linear Test)。要求一个变量是有序的,另一个变量可为二分类也可为多分类。

五、分类 & 数值·相关性分析

(一)数值变量 X 1 X_1 X1 & 二分类变量 X 2 X_2 X2 t t t 检验等

  1. Point-biserial 相关性分析
    Point-biserial相关是Pearson相关的一种特殊形式,适用于分析二分类变量和连续变量之间的相关性
  2. t t t 检验 :
    相当于检验不同 X 2 X_2 X2对应的 X 1 X_1 X1是否有差异,有显著差异则相关,无显著差异则无法说明其相关(运用假设检验的原因不能直接说不相关)。注意这里的 p 值代表检验结果显著程度,与相关程度无直接关系。

(二)数值变量 X 1 X_1 X1 & 多分类变量 X 2 X_2 X2:单因素方差分析等

  1. ANOVA:
    跟 t 检验一个原理,就是分类变量的类别超过2类后也适用。p 值小于显著水平则两变量具有一定的相关性,若 p 值大于显著性水平则无法证明两变量具有相关性(运用假设检验的原因不能直接说不相关),同样 p 值代表检验结果显著程度,与相关程度无直接关系。

六、有序 & 数值·相关性分析

没有专门针对有序变量和数值变量相关性分析的方法,一般将连续变量视为有序变量,按照有序 & 有序的方法进行分析


转载:https://blog.csdn.net/weixin_39982225/article/details/104875676
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场