> Photo by M. B. M. on Unsplash
我们所有人都听到人们说,某种商品的价格随着时间的推移而上升或下降。这种商品可以是黄金之类的东西,也可以是任何可食用的东西。此外,您一定已经听说银行的房屋贷款利率已经增加。教育贷款的利率下降了。这些都是什么?这些对我们有什么影响?这些类型的数据是数据的时间序列。
时间序列通常是随时间推移而收集的数据,并且取决于时间。按时间顺序收集的一系列数据点称为时间序列。时间序列的组成部分是:
i)趋势:趋势显示了长时间内数据增加或减少的方向或总体趋势。可以分析趋势在不同时间段内可能会增加,减少或稳定。但是总体趋势必须是向上,向下或稳定。
ii)季节性:在特定时间段内重复出现的时间序列中任何可预测的变化或模式都可以称为季节性。当时间序列受任何季节性因素(例如一年中的时间或一个月中的一周)的影响时,就会出现季节性模式。
iii)不规则性/残差:这是趋势周期和季节成分删除后剩余的剩余时间序列。
当值是恒定值或任何函数形式的值时,不应使用时间序列分析。
时间序列不应与回归相混淆。回归模型的基本假设是观察是独立的,但此假设在时间依赖的时间序列数据中不成立。
固定时间序列
固定时间序列是一种不依赖于观测时间序列的属性的时间序列。因此,具有趋势或季节性的时间序列不会被认为是固定的,因为趋势和季节性会影响不同时间的时间序列的值。我们使序列平稳以使变量独立。变量可以以多种方式依赖,但只能以一种方式独立。因此,当他们独立时,我们将获得更多信息。将系列分类为固定系列有两个基本标准:
i)时间序列的均值和方差不应该是时间的函数。它应该是恒定的。
ii)项和<i + m>项的协方差不应该是时间的函数。
移动平均线
在统计中,移动平均值是通过创建整个数据集的不同子集的一系列平均值来分析数据点的一种计算。也称为移动均值或滚动均值。
移动平均线最常见的用途是识别趋势方向并分析支撑位和阻力位。移动平均线有两种基本类型:简单移动平均线和指数移动平均线。通过将多个时间段内的值相加,然后将总和除以n(时间段数),可以计算出简单的移动平均值。简单移动平均线(SMA)是给定时间段的平均价格,每个时间段的价格具有相同的权重,而指数移动平均线(EMA)通过对最新值施加更大的权重来减少滞后。应用于最新值的权重取决于移动平均值中的周期数。尽管简单移动平均线和指数移动平均线之间存在明显的差异,但是我们不能说其中一个一定比另一个更好。指数移动平均线具有较小的滞后性,因此对最近的值和值的最近变化更敏感。指数移动平均线将在简单移动平均线之前转向。另一方面,简单的移动平均值代表整个时间段内的真实值平均值
固定检查
该测试有助于我们确定时间序列受趋势影响的程度。我们可以利用Dicky-Fuller检验来检查时间序列数据的平稳性。该检验的零假设是时间序列不是平稳的(具有某些时间相关的结构),另一种假设是时间序列是平稳的。测试结果包括一个测试统计量和一些针对不同置信度的临界值。如果"测试统计量"小于"临界值",我们可以拒绝原假设,并得出结论该序列是平稳的。
ARIMA模型
ARIMA代表"自动回归综合移动平均线"。它由三个有序参数(p,d,q)指定。
在这里," p"表示自回归模型的顺序(时间滞后数)," d"是差异程度(数据减去过去值的次数)," q"告诉我们移动的顺序平均模型。
我们可以使用先前的时间步长观测值来计算时间序列数据的相关性,称为滞后。因为时间序列数据的相关性是使用先前时间的相同序列的值计算的,所以自相关。为了找到(p,d,q)的最佳值,我们将利用ACF(自相关函数)和PACF(部分自相关函数)图。ACF度量的是时间序列与其自身的滞后版本之间的相关性,而PACF度量的时间序列与其自身的滞后版本之间的相关性,但是在消除了已经由干预解释的变化之后比较。
下面是参考jupyter笔记本,它显示了如何在现实世界时间序列分析中应用以上概念:https://gist.github.com/souravkrpathak/14335b8fb22e240b6c4f01e011602040#file-gold_pred-ipynb
(本文由闻数起舞翻译自Sourav Kumar Pathak的文章《Analyzing Time series data》,转载请注明出处,原文链接:https://medium.com/datadriveninvestor/analyzing-time-series-data-7085efdc8750)
还没有评论,来说两句吧...