分享好友 最新动态首页 最新动态分类 切换频道
数据不正态分布怎么办?
2024-11-07 21:51

在实际研究中,很多时候都需要数据满足正态分布才可以。比如说回归分析,其实做回归分析有一个前提条件即因变量需要满足正态分布性。也比如说方差分析,其有一个潜在的前提假定即因变量Y需要满足正态分布。还有很多种情况,比如T检验,相关分析等等。

数据不正态分布怎么办?

但这种情况往往被分析人员忽略掉,或者是数学基本不够扎实,或者是无论如何数据均不满足正态分布等客观条件,也或者其它情况等。如果说没有满足前提条件,分析的结果会变得不科学严谨,分析结论会受到置疑。

哪些研究方法需要数据满足正态分布才行呢?以及如果不满足正态分布时应该如何处理呢?接下来会逐步说明。

常见会涉及五种研究方法,它们对正态性要求相对较高,如果不满足正态性则会有对应的处理。

线性回归分析

线性回归分析,很多时候也称回归分析。其对正态性的要求较为严格,包括因变量Y需要满足正态性要求,同时残差也需要满足正态性。如果说因变量Y不满足正态分布,通常情况下有以下几种处理办法。

第1:对因变量Y取对数处理(包括自然对数和10为底的对数);这可以在SPSSAU的生成变量功能里面找到;

第2:如果数据接近于正态分布,则接受其为正态分布性。此种情况较多,因为在研究影响关系时,线性回归最适合,如果不进行线性回归,通常情况下很难有更适合的研究方法。因而很多时候只要数据接受于正态性即可,而不用强求数据完美的正态,事实上在生活中绝对的“正态性”并不存在。使用正态分布检验方法进行验证正态性最为严苛,因而可使用正态分布图直观查看数据分布情况,接近于“正态分布”更符合实际情况;

第3:加大样本量;有时候数据太少时,即使正态分布的数据,也因为样本小没有办法覆盖各种情况,从而变得不正态,因而加大样本量会减少这种情况产生。

Pearson相关分析

Pearson相关分析(也称皮尔逊相关分析,很多时候直接称呼为相关分析),在实际研究中使用最多。其实Pearson相关分析也有着默认的前提条件,即数据满足正态分布性。但现实中的数据很难满足正态分布性,此时建议使用Spearman(斯皮尔曼)相关系数进行研究即可。

方差分析

方差分析(这里特指单因素方差分析),其默认有个前提条件是因变量需要符合正态分布性,可能是由于即使非正态分布,方差分析的结果也较为稳健,因而很少有人先进行正态分布性检验。

事实上方差分析的因变量也需要满足正态分布特质,如果没有满足,则可以使用非参数检验进行检验。具体非参数检验的类型来看,如果X的组别为两组,例如研究人员想知道不同性别学生的购买意愿是否有显著差异,按性别分为男和女共两组,则应该使用MannWhitney统计量,如果组别超过两组,则应该使用Kruskal-Wallis统计量结果。SPSSAU自动为你选择MannWhitney或者Kruskal-Wallis统计量。

独立T检验

独立T检验(也称T检验),其默认有个前提条件是因变量需要符合正态分布性,如果不满足,此时可考虑使用非参数检验,具体来讲应该是MannWhitney检验进行研究。

单样本T检验

单样本T检验,其默认前提条件是数据需要符合正态分布性,如果不满足,此时可考虑使用非参数检验,具体来讲应该是单样本Wilcoxon检验进行研究。

配对样本T检验

配对样本T检验,其默认前提条件是差值数据需要符合正态分布性,如果不满足,此时可考虑使用非参数检验,具体来讲应该是单样本Wilcoxon检验进行研究。其实配对样本T检验与单样本T检验的原理是一模一样,无非是进行了一次数据相减(即差值)处理而已,因而其和单样本T检验保持一致。

从理论上讲,很多研究方法需要满足正态分布特质,但现实情况下,很难满足正态分布性。SPSSAU认为有两点原因。

1是抽样样本过少,很难cover所有情况,所以导致总体是正态分布,但抽样样本不满足正态分布,比如中国13亿人的身高肯定是正态分布,但抽样100个人可能就不会正态分布;

2是认知的不一致,事实上正态性是一种数学理论上的分布,实际情况下只要数据分布基本满足“钟形曲线”特征,SPSSAU认为也应该将数据看成是正态分布。

因而在实际研究过程中,很可能会出现需要满足正态性要求,但是并不满足,此时应该如何处理呢?SPSSAU认为有三种处理方式,如下图:

第一种:使用正态分布图直观判断正态分布特质,而不是使用检验方法。原因在于检验方法比较严苛,而现实数据满足“钟形曲线”特征即可;

第二种:将数据取对数,或者开根号等处理。如果数据值非常大,取对数或者开根号等,会对数据进行“压缩”处理,相对意义上单位会减小,但值的相对意义还是一样,通常情况下,数据会变得相对“正态”一些;此步可使用SPSSAU的“生成变量”功能即可完成。

第三种:使用其它研究方法。如果是使用方差分析,T检验等,如果不满足正态性,则有对应的非参数检验方法可以使用。如果是非参数检验方法进行差异对比,则应该使用中位数去表述大小差异等,而一般不使用平均值(满足正态分布性时才使用平均值表示整体水平)。当然,SPSSAU均会提供对应的非参数检验方法等,可直接使用。

上述已经讲了很多关于正态分布的话题,那如何对正态分布性进行检验呢?SPSSAU共提供以下几种检验,如下:

第一种:图示法(使用SPSSAU的正态图即可,可得到类似如下的图等)

第二种:检验方法

SPSSAU共提供两种正态性检验方法,包括S-W检验和K-S检验。小样本(小于50)时建议使用S-W检验,大样本(大于50)时建议使用K-S检验;此两个检验的原假设为数据正态分布,因而P值>0.05,说明该项具有正态分布特质;这些均会在SPSSAU的智能分析中默认提供。

最新文章
电商运营推广工具有哪些
在当今电商行业发展迅速的背景下,电商运营推广工具成为了商家们必不可少的利器。这些工具不仅能够帮助商家提升品牌曝光度,还可以增加销售额,提升用户粘性。在本文中,我们将从多个维度来介绍电商运营推广工具,为您解密这些利器的魅力。
通过搜狗搜索引擎爬取微信公众号文章
#!/usr/bin/env python# coding=utf-8import timeimport osimport requestsimport reimport urllibfrom urllib import requestfrom lxml import etreefrom bs4 import BeautifulSoupimport pymysql as mdbimport loggingimport hashlibclas
节省空间,快速删除没有使用的wordpress略缩图-以及恢复方法
最近有一些用户反馈,在网站空间的upload文件夹中所上传的图片,都会被生成非常多不同尺寸的,有的用户的网站空间很小,因此这些略缩图占用了一些储存空间。wordpress是会自动生成不同尺寸的略缩图的,wordpress自己有三种默认尺寸的略缩图
第三章 大数据管理(这次不考,就闲的写写)
按照老师所讲,仅供参考 前面为大数据的相关概念,后面为爬虫概念及使用 实际用书为大数据导论。。。1.数据 所有能输入到计算机并被计算机程序处理的符号的总称 2.数据的分类 结构化数据:包括预定义的数据类型、格式和
行业如何优化seo 行业SEO优化策略:精准提升排名秘籍
在当今数字化时代,搜索引擎优化(SEO)已成为各行各业提升在线可见性、吸引潜在客户、并最终驱动业务增长的关键策略行业要想在竞争激烈的市场中脱颖而出,就必须深刻理解并有效实施SEO的最佳实践以下是一篇关于“行业如何优化SEO”的深入
让“西安制造”再迎高光时刻
原标题:让“西安制造”再迎高光时刻 题:让“西安制造”再迎高光时刻新华社记者丁玫、李华、刘硕古城西安曾是西部地区工业发展的“领头雁”,黄河彩电、蝴蝶手表、华山照相机等产品曾从这里走向全国。去年底,西安市提出加快建设先进制造
百度蜘蛛池收录:定制小旋风蜘蛛池插件,优化SEO,提升网站排名的秘密武器
定制小旋风蜘蛛池插件助力百度蜘蛛池收录,通过优化SEO提升网站排名,成为网站优化不可或缺的秘密武器。本文目录导读:小旋风蜘蛛池插件概述定制小旋风蜘蛛池插件功能定制小旋风蜘蛛池插件优势如何使用定制小旋风蜘蛛池插件在当今互联网时
联想多款AI PC齐发:联想品牌&moto牵手热巴 开启AI终端新时代
本次发售体验会除了带来强大性能的AI终端硬件产品外,由端云混合大模型所驱动的联想个人智能体产品联想小天也正式亮相。在体验会现场的演示中,联想小天展现出强大的自然语言交互功能,以极其拟人化的语音和语气进行对话,为用户解决诸多问
运维新手入门——BIOS和UEFI的启动项
先插一句话,现在很多人用UEFI BIOS这个称呼。这里为了区分:BIOS一律指传统BIOS,UEFI BIOS一律称呼为UEFI。UEFI下的BIOS设置,一律称为UEFI设置。一直就想写这个,因为自己折腾Hackintosh。最初BootThink,后来Chameleon,现在Clover。每
马云的焦虑,俞永福如何治
  今年双十一体验,普遍反馈不好。还没等这个负面发酵,高管俞永福离职的消息就被丢出来了。业界也就顾不得什么双十一了,阿里的公关还是业界的标杆。  俞永福是现任阿里大文娱的董事长兼CEO,2014年俞永福带着自己创立的UC并入阿里后
相关文章
推荐文章
发表评论
0评