主要数据预处理扩展函数介绍。
关注二幺幺统计课堂公众号可以加入学术交流,群免费获得各种数据资源。大家好,我们已经学习了数据预处理中的数据清洗,数据规划,除了以上操作的一些函数以外,而还提供了很多其他的一些函数。本小节将扩展介绍一些其他的统计函数,我这里主要列举了五个。
·第一个lm是做线性回归的,它是利用因变量与自变量去建立线性回归模型这样的计算。
·第二个是predict也就是预测,那就可以根据说建好的一些模型去进行预测值的计算。which是返回的是服从某些条件的观看的所在的位置,它不是返回的并不是它的一个数值而是它的一个位置。
·而罗马随机产生的是正代分布的一些随机数,这个经常用它来产生一些随机数来进行一些计算。它的格式是你要产生多少个,产生的分布是多什么均值,它的方差是多少?c领在上一节有用到,其实它就是一个向上取样向上使入最近的一个整数,就是直接可以用的。
·总之五个函数可以来实际看一下它的实际操作,看一下它的效果。
新建一个脚本,可以先用alomo来形成一些随机数。先生成一个x,便于我们等一下来模拟回归的函数,l码生成一个一到一百的,最简单的。
然后用alarmer来模拟一下应变量,is二用三去乘以一个 x,再加一个随机的扰动项,就用到aromer这样一个随机的生成函数,生成一百个跟x要保持一致,均值为零,然后它的方叉,xcy生成了。
就可以把数据去组成一个数据框,数据光是data点for in 吧,xy。
生成数据框之后就可以用lM去建立回归模型啦。我们来建一个最简单的回归模型,看一下lM的效果,model 等于lMR,y是它的音变量,然后它的字面量,数据级就是用上面构建的数据框data吧。我们来运行一下,ok,已经运行成功了。
来看一下模型的情况,这是模型的概况,这样整个模型的概况在下面已经输出来了。这个公式是y,正面上是y,这边上是 x,它整个的一个基本的最小值,最值得中位数,上次分位数和下次分位数都在这,然后它模型的结果,这个是它的系数,然后它的体检验,跟它的p值都是非常之显著的。因为这里是模拟的数据它肯定是线性的,所以结果非常的完美,都是在零点零一以上的一个显著。这就是l码,我们可以看她的 预测。那就可以根据这个模型来算它的预测值,所以可以用到我们介绍的prodig 的数据。
我们可以先来生成一组新的数据来做预测,形成一组新的输入数据,虽然 y值是要预测的,但是 y值也给它一个零,全部复制给零放在这备用。四个,形成一个新的数据,数据框xy,我们可以对这个新的数据去求它的预测值。
这里依据的就是生存的 model 吧,newdate,运行一下。它说 new date没有找到,我们来看一下。我是new date,我没有运行,来运行一下。然后再重新运行一下。这样结果就已经出来了。第一个值的预测值是八点四七七,这第二个预测值第三个第四个,就都已经输出来了。这就是predict 的函数要的应用,通常就输出来的是根据已有的一个模型的预测值。
reach这个函数,rr 指输出的是符合某一些条件的所在的位置,仍然以x这个数据来看一下。我要输出x,这个数据里面比均值要大的数据的位置,来看一下。我们运行一下,第二个位置和第四个位置我们可以看一下,x这个数据。比均值要大的就是第二个和第四个,它的均值是多少,我们也来看一下是不是对的。均值,均值是零点五比零点五大的,确实是第二个和第四个位置的数据。
所以reach要注意的是它输出的并不是值,而是输出的是位置。所以大家要注意的是位置的这个地方,对于c脸而言它就是向上取整,我们来随意看一下c脸的一个永远用 x这个数据,它的效果。
sorry,这个 x我写了一个大写,其实是小写,所以这个 r里面要特别注意大小写。我们来看一下g这个数据,它向上取整取的是负一,负十三,我们看一下 x,这个数据在这,然后它向上取整是取负一,它应该是取十三,负十二,负十二这里是四,是没有错的,它取的是往上最大的整数,最接近它的整数,所以这个是没有什么太大的问题的。这就是这几个函数的大概的应用。
第三部分的课程到此基本上就完成了,来回顾一下第三部分的内容。
第三部分我们主要讲了数据清洗,数据规划变化和一些扩展的函数,数据清洗重点讲了缺失值处理和异常值处理。缺失值主要讲三种方法,删除替换和插补异常值处理四种方法,大家要是不同的情况去做处理。规律变换主要讲了常用的三种方法,最小最大零点均值和小数定标的预处理函数也是要根据自己的数据情况去选择一种时刻的方法去做处理。扩展函数主要讲了五个扩展函数,也讲了实际操作和应用。接下来我们将学习此系列课程的第四部分数据分析及建模,下次可以。