文学起点网
当前位置: 首页 文学百科

数据统计分析的几个重要方法(数据分析必掌握的统计学知识)

时间:2023-06-07 作者: 小编 阅读量: 6 栏目名: 文学百科

数据分析必掌握的统计学知识此文是《10周入门数据分析》系列的第7篇想了解学习路线,可以先阅读学习计划|10周入门数据分析统计学是数据分析的基石学了统计学,你会发现很多时候的分析并不靠谱比如很多人都喜欢用平均数去分析一个事物的结。

此文是《10周入门数据分析》系列的第7篇

想了解学习路线,可以先阅读 学习计划 | 10周入门数据分析


统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。

大部分的数据分析,都会用到统计方面的以下知识,可以重点学习:

基本的统计量:均值、中位数、众数、方差、标准差、百分位数等

概率分布:几何分布、二项分布、泊松分布、正态分布等

总体和样本:了解基本概念,抽样的概念

置信区间与假设检验:如何进行验证分析

相关性与回归分析:一般数据分析的基本模型

通过基本的统计量,你可以进行更多元化的可视化,以实现更加精细化的数据分析。这个时候也需要你去了解更多的Excel函数来实现基本的计算,或者python、R里面一些对应的可视化方法。

有了总体和样本的概念,你就知道在面对大规模数据的时候,怎样去进行抽样分析。

你也可以应用假设检验的方法,对一些感性的假设做出更加精确地检验。

利用回归分析的方法,你可以对未来的一些数据、缺失的数据做基本的预测。

了解统计学的原理之后,你不一定能够通过工具实现,那么你需要去对应的找网上找相关的实现方法,也可以看书。先推荐一本非常简单的:吴喜之-《统计学·从数据到结论》。也可以看《商务与经济统计》,结合业务能更容易理解。

另外,如何精力允许,请掌握一些主流算法的原理,比如线性回归、逻辑回归、决策树、神经网络、关联分析、聚类、协同过滤、随机森林。再深入一点,还可以掌握文本分析、深度学习、图像识别等相关的算法。关于这些算法,不仅需要了解其原理,你最好可以流畅地阐述出来,还需要你知晓其在各行业的一些应用场景。如果现阶段不是工作刚需,可不作为重点。

本文算是一个知识点汇总,不做细致展开,让大家了解统计学有哪几大块,每一类分别用于什么样的分析场景。后面几篇会以实际案例的方式,细致讲讲描述性统计、概率分布等。

知识点汇总:

1.集中趋势

2.变异性

3.归一化

4.正态分布

5.抽样分布

6.估计

7.假设检验

8.T检验

一、集中趋势

1.众数

出现频率最高的数;

2.中位数

把样本值排序,分布在最中间的值;

样本总数为奇数时,中位数为第(n 1)/2个值;

样本总数为偶数时,中位数是第n/2个,第(n/2) 1个值的平均数;

3.平均数

所有数的总和除以样本数量;

现在大家接触最多的概念应该是平均数,但有时候,平均数会因为某些极值的出现收到很大影响。举个小例子,你们班有20人,大家收入差不多,19人都是5000左右,但是有1个同学创业成功了,年入1个亿,这时候统计你们班同学收入的“平均数”就是500万了,这也很好的解释了,每年各地的平均收入数据出炉,小伙伴们直呼给祖国拖后腿了,那是因为大家收入被平均了,此时,“中位数”更能合理的反映真实的情况;

二、变异性

1.四分位数

上面说到了“中位数”,把样本分成了2部分,再找个这2部分各自的“中位数”,也就把样本分为了4个部分,其中1/4处的值记为Q1,2/4处的值记为Q2,3/4处的值记为Q3

2.四分位距 IQR=Q3-Q1

3.异常值

小于Q1-1.5(IQR)或者大于Q3 1.5(IQR);

对于异常值,我们在数据处理的环节就要剔除;

4.方差

5.平方偏差

方差的算术平方根

6.贝塞尔矫正:修正样本方差

实际在计算方差时,分母要用n-1,而不是样本数量n。原因在于,比如在高斯分布中,我们抽取一部分的样本,用样本的方差表示满足高斯分布的大样本数据集的方差。由于样本主要是落在x=u中心值附近,那么样本如果用如下公式算方差,那么预测方差一定小于大数据集的方差(因为高斯分布的边沿抽取的数据也很少)。为了能弥补这方面的缺陷,那么我们把公式的n改为n-1,以此来提高方差的数值,这种方法叫贝塞尔矫正系数。

三、归一化

1.标准分数

一个给定分数 距离 平均数 多少个标准差?

标准分数是一种可以看出某分数在分布中相对位置的方法。

标准分数能够真实的反映一个分数距离平均数的相对标准距离。

四、正态分布

1.定义:随机变量X服从一个数学期望为μ,方差为σ⊃2;的正态分布,记为N(μ,σ⊃2;)

随机取一个样本,有68.3%的概率位于距离均值μ有1个标准差σ内;

有95.4%的概率位于距离均值μ有2个标准差σ内;

有99.7%的概率位于距离均值μ有3个标准差σ内;

五、抽样分布

1.中心极限定理

设从均值为μ,方差为σ⊃2;的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ⊃2;/n的正态分布

2.抽样分布

设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有N·n种抽法,即可以组成N·n不同的样本,在不重复抽样时,共有N·n个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明:在重置抽样时,样本均值的方差为总体方差的1/n。

举个例子:

48盆MM豆,计算出每盆有几个蓝色的MM豆,48个数据构成了总体样本。然后随机选择五盆,计算五盆中含有蓝色MM豆的平均数,然后反复进行了50次。这就是n为5的样本均值抽样。

六、估计

1. 误差界限

2. 置信度

We are some % sure the true population parameter falls within a specific range

我们有百分之多少确信总体中的值落在一个特定范围内;

一般情况下,取95%的置信度就可以;

3. 置信区间

七、假设检验

1.问题:什么是显著性水平?

显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,也就是Type I Error

A Type II Error is when you fail to reject the null when it is actually false.

2. 如何选择备选检验和零假设?

一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致;

同时将研究者想收集证据证明其不正确的假设作为原假设H0

八、T检验

1. 主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。

流程如下:

是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著;

一般检验水准α取0.05即可;

计算检验统计量的方法根据样本形式不同;

2. 独立样本T检验:

现在要分析男生和女生的身高是否相同两者的主要区别在于数据的来源和要分析的问题。

问题:为什么T检验查表时候要n-1?

样本均值替代总体均值损失了一个自由度

3. 配对样本t检验

分析人的早晨和晚上的身高是否不同,于是找来一拨人测他们早上和晚上的身高,这里每个人就有两个值,这里出现了配对

样本误差(Standard Error)

4. Pooled variance 合并方差

当样本平均数不一样,但实际上认为他们的方差是一样的时候,需要合并方差

不要被公式吓到,他的本质是两个样本方差加权平均

5. Cohen’s d

效应量(effect size):提示组间真正的差异占统计学差异的比例,值越大,组间差异越可靠。


此文是《10周入门数据分析》系列的第7篇。

想了解学习路线,可以先行阅读“学习计划 | 10周入门数据分析

公众号上已更新到第13篇,欢迎前往关注~

    推荐阅读
  • 荷塘月色简笔画彩图(荷塘的场景图简笔画)

    今日份简笔画荷塘月色.感恩日记1.,我来为整理几张简单漂亮的荷塘月色简笔画彩图?以下简笔画图片总有一款是你喜欢的,希望对你有帮助来看看吧!荷塘月色简笔画彩图今日份简笔画荷塘月色.感恩日记1.荷塘月色好看的儿童画图片儿童简笔画大全荷塘月色简笔画儿童画

  • 直硬头发软化前后效果图(头发软化前后效果图)

    可以使头发变软,变柔顺,变贴服,且价格也很便宜,普通的美发沙龙价格为50到80元左右,软化比较自然。头发软化后几天可以洗刚做完软化2至3天不要洗头,刚做完软化不要用力拉头发,会有损发质和效果。软化也是伤头发的,不过比不停地做一次性夹头发而言小很多,如果是短发做软化还是不错的。如果想让头发蓬蓬的,最好不要全头做软化,甚至不建议做软化。具体情况,建议咨询理发师。用药水要用好一点的,对头发伤害才不会很大。

  • 赞美运动员的话(赞美运动员的话有什么)

    年轻的我们自信飞扬,青春的气息如同出生的朝阳,蓬勃的力量如同阳光的挥洒此时此刻,跑道便是我们精彩的舞台,声声加油便是我们最高的奖项论何成功,谈何荣辱,心中的信念只有一个:拼搏,我来为大家科普一下关于赞美运动员的话?赞美运动员的话年轻的我们自信飞扬,青春的气息如同出生的朝阳,蓬勃的力量如同阳光的挥洒。所有的努力都是为了迎接这一刹那,所有的拼搏都是为了这一声令下。

  • 长安uni-k车主反映这款车怎么样(新车长安UNI-K登场)

    据长安汽车最新消息,中大型SUVUNI-K官图曝光,这是长安UNI系列的第二款车型。新车将搭载蓝鲸系列2.0T发动机并匹配8AT变速箱,将于广州车展首发亮相。新车亮点1.采用了全新的“V”型面设计和无边界格栅。新车概况新车前脸依然采用无边界设计并融入了V型面概念,不同于UNI-T,UNI-K的大灯位置设计在了最上方。车尾方面采用了时下流行的贯穿式尾灯设计,与UNI-T的V型后导流造型不同,UNI-K采用了新的航天器式造型,立式尾灯十分显眼。

  • 渡劫经典语录(关于渡劫的语录精选)

    情到深处人孤独,爱至穷时尽沧桑堕落的天使啊,你无知的游走着。我将于茫茫人海中访我唯一灵魂之伴侣;得之,我幸;不得,我命。玲珑骰子安红豆,入骨相思君知否。于千万人之中遇见你所遇见的人,于千万年时间无涯的荒野里,没有早一步,也没有晚一步,刚巧赶上了。生命是一朵千瓣莲花,我拒绝了绽放的同时,我也拒绝了枯萎和零落。就算哭泣也要皱眉优雅,就算失败也要转身潇洒。之后我也学会了阳奉阴违,发生了什么与我再无所谓。

  • 孤城闭什么时候上映(谁是主演)

    以下内容大家不妨参考一二希望能帮到您!孤城闭什么时候上映《孤城闭》将于2020年起在湖南卫视上映播出。该剧主要由王凯、江疏影、任敏、杨玏、边程、叶祖新、喻恩泰、王楚然、刘钧、孙坚等主演。《孤城闭》改编自米兰lady同名小说,以北宋为背景,在风起云涌的朝堂之事与剪不断理还乱的儿女情长之间,还原了一个复杂而真实的宋仁宗。

  • 大众朗逸所有灯图解(认识汽车灯图解)

    大众朗逸所有灯图解作为新手,汽车灯光就是一道难题,下面我们一起通过图解来认识一下汽车各种灯光吧。双闪灯的作用是当车辆发生意外情况后,引起其他车辆警惕,防止发生追尾事故。当踩下制动踏板后,制动灯立即亮起,并发出红色灯光,提醒后方车辆。倒车灯是白色,作用是为了照亮车尾的路面,减少倒车时盲区,另外也是对后方的提醒。

  • 雪里红的腌制方法(做雪里红腌菜的步骤)

    下面更多详细答案一起来看看吧!雪里红的腌制方法雪里红摘干净,根部用刀劈开,正一层反一层放入盆中,取盐均匀地洒在雪里红上,腌制1-2天。烧开水放凉,加盐,搅拌均匀,盐水倒入雪里红中泡制一天。泡好的雪里红捆成一小捆放入密封罐,倒入泡雪里红的盐水,盖好密封罐,即吃即取。

  • 郑州婚纱照推荐哪家好(郑州拍婚纱照团购)

    中国红喜嫁秀爆朋友圈的婚纱照中式婚纱照新中式婚纱照婚纱照风格高级感婚纱照婚纱照秀禾服的中式嫁衣,是完美诠释了东方女性温婉古典美。让人完全移不开目光~每一个女孩子都应该拥有这样华丽的喜嫁风太精致完全属于中式婚纱照的浪漫感~

  • 胎梦最准的位置(从胎梦看看你腹中的孩子给你暗示了吗)

    估计生完孩子和正在孕期的妈妈都会经历过这种事情,就是我们会经常做梦,而且会梦见一些动物植物什么的,这在老人眼里属于“胎梦”。你梦见的什么会预示着即将出生的宝宝是男孩还是女孩。你的胎梦准不准,来看看一下别人的胎梦。哈哈,看来有些胎梦还是挺准的,或许都是巧合吧,总之,宝宝来了就是我们的命中注定。