线性回归的预测方法,是一种比较容易理解的时间序列预测方法。这种方法就是利用变量与自变量的相关关系,从而建立线性方程,并通过方程求解来预测未来情况的一种方法。一般来说,多使用的是一元线性回归预测法,即通过一个自变量X,建立与因变量Y之间的直线型关系。

这是一个典型的线性回归图,实际数据分布在蓝色线附近。这个蓝色线是方程所在,即

Yt = a + bxt

只要给予既定的xt值,就可以得到Yt值。

而季节模型预测,就是实际数据反映了季节因素而带来的波动,随着不同季节情况从而具备了一定的周期性。这种特性让数据交替地出现在趋势性的上方和下方。

当线性趋势和季节因素有所结合的时候,应该如何进行建模预测呢?

首先,观察一组数据。某品牌的运动鞋在2017年到2020年的各季度销量。

并且通过图示观察,呈现出线性趋势的情况。

然后拆解出各个年份对比,图形都是很雷同,都是从第1季度开始增长,在第3季度达到顶峰,然后在第四季度回落。

综合以上,这个历史数据表示趋势具备了线性和含有季节性因素。

如果利用以上数据,使用时间序列法的预测,就要把线性回归和季节性模型结合起来。线性回归,如果是一元线性回归,就是Yt = a + bxt,如果是涉及多元,就要再增加自变量。历史数据表明含有4个季节性的因素,那么可以把每一个季节看作一个自变量因素。

这里涉及一个哑变量的问题。因为要把季节因素融入到线性方程中,就是需要做哑变量处理。季节因素被视为分类变量,而所谓分类变量就是用于将数据观察值分类的数据。

假如没有处理,直接代入,把第一季度看成是X=1,第二季度看成是X=2,如此类推,那么线性方程是Y= A + BX,而回归系数B描述了自变量X每增加一个单位对因变量Y 的影响,不过我们把季节视为一个自变量因素,然而当季节从1变化到2,又或者从2变化到3,它对因变量Y的影响应该是不尽相同的,如果按照线性方程Y= A + BX而言,这个影响都是一样的话,这样的话实际还是单纯的线性回顾,并非融合了季节因素。

所以,对于这样的分类变量,就是进行哑变量处理。

对四个季度,启用了3个虚拟变量,分别命名为Q1,Q2,Q3,其值只能为0或1。当表示为第一季度的时候,Q1为1, Q2和Q3都为0;表示为第二季度的时候,Q2为1,Q1和Q3都为0;当表示为第三季度的时候,Q3为1,Q1和Q2都为0。那么3个虚拟变量就可以决定4个分类变量,也就是第四季度的时候,Q1,Q2和Q3都为0。

具体如下

这样的话,回归方程就变成

Y=A+BX1+CX2+DX3+Et

这个公式含有三部分要素,第一项是截距,最后一项是时间线性趋势,中间的都是季节性影响,其中t是时间周期。

那么就可以理解为,当X1从0变化到1,X2和X3均保持不变,那么变量就从第1季度变化为第4季度了。

我们把相关数据整理入EXCEL,并根据上述的方程式建立预测值的计算,其中相关参数A到E可以先行随便设置。

当然,第一步动作,就是通过预测和实际值的最小误差平方和(SSE),来求出对应的A到E值。

还是老方法,利用EXCEL的规划求解。

注意:A到E的参数并非一定要正值的,所以“使无约束变量为非负数“不要打勾选择。得出结果如下

也就意味着公式Y=A+BX1+CX2+DX3+Et代入A到E各参数后变为如下:

Y = 23.81-1.19X1+5.04X2+13.02X3+1.02t

斜率是1.02,意味着每一季度大概增长1.02万的销售量。

那么,下一年(2021年)的4个季度的预测值也因此得出

从图示来说,拟合度还是不错的。

还可以根据数据分析-回归,看看拟合度情况如何。

得出结果如下,R方和调整后的R方还是不错的。因此可以考虑采用相关的预测值。

当然,预测数值并非最终,还要结合市场因素等做出调整的。