关注二幺幺统计课堂公式,可以加入学术交流,群免费获得各种数据资源。朋友们好我是陈阳,这节课来讲解第二节的内容也就是异常值的处理。
异常值就是指样本中的个别值,其他的数值就是明显偏离,其余的观测值,异常值也称为离群点异常值的分析,也称为离群点的分析。异常值的处理方法吗?这节课就讲一个三c个码原则,还有就是异常值的处理方法。异常值的分析就是三c个码原则,就来分析哪些数据是异常的,异常值的处理方法就是删除的方法。
就把这今天就是先讲删除的方法来把这些异常值去除,同样的导入一些需要常用的一些库,这里就是也要用到。然后首先就是运行一下导入这些库,有人当派panas,普拉利不?这个就是统计计算的一个库,后续会讲。
然后就是指定一个字体,就是常说的一个绘图的一个坑,那里也讲了,把它指定一个黑体的,符号也能显示。就这一个就是嵌套的一个魔法函数叫魔法指令,能让就是metaple 的利用画出的画,画出的图能嵌入到丘比特里面。异常值得分析就叫thanks sigma。
什么是thanks sigma?原则就是如果数据服从正态分布,异常值就被定义为一组,一组测测定值中与平均值的偏差超过三倍的值。什么意思呢?可以用公式来表达一下,在一组测量测量值中就任何一个值,如果偏移就是平均值,就是检查差值的偏离量,如果超过三倍的c个码值,它就会被认为是异常值的情况,它的概率就是小于零点零点三的零点零零三的,这是在正在分布的一个规律中总结到的。
同样先来实践一下,先新建一个series对象,这里就是随机生成的一万个零到一之间的值,乘以一百,这个后面再乘以一百。然后就是先计,先计算它的均值,因为要用的均均值,再计算就是标准差,标准差就是方便后面要做对比的样子,然后就是调用直接调用这个库,导入刚才导入这个库。
下面的就是有一个函数,这个函数就是来判断它的正态性检验,这个函数就是专门就是检验正态分布,它是否为正态分布。
看一看它检验出来的结果,因为创业的数据就是一个正在分布,所以说它肯定是一个正在性检验,它肯定会筛查它的差值,检测出是一个正在分布的,然后会返回一个正在分布的一个差值和标准差,你就是罚款。
它会返回这一个 series,对series 一系列的值均值和标准差,也就是正在封的均值和标准差。可以具体的来看一下运行一下结果。我们看一下差值就是0.零七六正差,就是一百零一点二一二九。
接下来就是画图,直接先借要借,先新建一个画布就是飞格,然后画布三小时。画图的作用就是方便来可视化。这些异常值分别就是在什么位置,直接就是增加一个纸图,然后就是直接调用一下 plus这个函数。画出之后看的就是readmiddle 函,密度分含住吗?密度分度密度分布曲线,也就是这条这开的参数,然后格外的就是指定有网格。
style就是风格。tato就是密度曲线吗?这个话说的就是一个密度曲线。然后绘制的这一个就是绘制的一个点的曲线,可以看到这两个就是两个红色的曲线。要绘的如画的一个图调用的函数就是这个函数,这个函数的意思就是方便能够看出就是它位于就是标准负三c 个码和正三c 码,在哪个区间内或者在哪一个位置?就是界限是在哪里?
我可以就是常用的一个参数就是x轴上面的参数,就是三倍的标准差和负三倍的标准差,就是三个码原值,三倍的标准差就在这里然后负三倍的标准差就在这里。这里可以清楚的看到它就是异常值会位于这个红色的虚线外面就是异常值,里面就是一个正常值。
可以看到再画一个纸图,画第二个纸图可视化出,然后这些异常的点。这里就是如何判断为异常?就是刚才说的三c 个码就是上面的值减去均值,然后的绝对值是大于三三倍的,三倍的标准差,也就是这个码三倍的标准差会判断为异常。同样的小于三倍的标准差也会是异常。
你说异常值就是大于三倍的标准差和小于三倍的标准差,两个和两个两个数值的和两个数值元素的和吗?就是所有的异常异常值。这里又筛选出了异常值,那么看到异常值共有二十九条,这里就是它的判断冷,这个函数就是判断它有多少,多少条异常。筛选出异常值之后的数据就是就是这一个,刚才看到这个大于它三倍的。因为我们是用到是平均值吗?它大于它的就是大于它三倍的标准差的,那就判就会判断为异常。
那那如果小于等于就说判断为正常,正常的数据就刚才就是筛选出来的,然后就是画出这个我们就是筛选出来的结果,用闪点图来画,先把这个正常的数据、闪点图可是画出来,然后再把异常的数据传入进去,可是画出来。不过这个颜色是用red,就是指定的 color,等于red这个红色,然后就是绘制绘制x轴,x轴的边界线负十到一万零一,一万一万一十。然后再绘制一个great,让图标网格显示。可以清楚的看到这是绘图之后的结果,红色的代表异常的数据,它会分布在正常数据之外的数据,远离正常数据。可以看到红色的都都是在外面分布,它不是会在里面分。