机器学习——序列模型-JZTXT

在本质上，音乐、语音、文本和视频都是连续的。如果它们的序列被我们重排，那么就会失去原有的意义。比如，一个文本标题“狗咬人”远没有“人咬狗”那么令人惊讶，尽管组成两句话的字完全相同。

处理序列数据需要统计工具和新的深度神经网络架构。为了简单起见，我们以图8.1.1所示的股票价格（富时100指数）为例。

统计工具

自回归模型、马尔可夫模型和因果关系是统计学中的三种不同的模型。这些模型在不同的情况下被用来描述数据之间的关系。

自回归模型是一种时间序列模型，它使用自身过去的数据来预测未来。这种模型假设当前数据与之前的观察数据是相关的。自回归模型通常用于预测时间序列数据，如股票价格、气温等。
隐变量自回归模型则是一种潜在变量模型，它使用潜在变量来描述数据之间的关系。隐变量自回归模型通常用于建模具有状态的系统，如语音识别、自然语言处理等。
马尔可夫模型是一种随机过程，它假设当前状态只与最近的少数状态相关。马尔可夫模型通常用于建模具有状态的系统，如语音识别、自然语言处理等。
因果关系是指两个事件之间的因果联系。因果关系通常用于分析因果关系，如药物治疗对疾病的影响等。

这三种模型之间的联系在于它们都是用来描述数据之间的关系。自回归模型和马尔可夫模型都是用来描述数据之间的相关性，而因果关系则是用来描述数据之间的因果关系。这些模型可以相互补充，以提供更全面的数据分析。

内插法和外推法

内插法和外推法是两种不同的方法，用于在现有观测值之间进行估计和对超出已知观测范围进行预测。内插法通常用于填补数据中的缺失值，而外推法则用于预测未来的值。这两种方法在实践中的难度上差别很大，因为外推法需要对超出已知观测范围的数据进行预测，而这些数据可能会受到许多未知因素的影响，从而导致预测结果的不确定性。

对于所拥有的序列数据，在训练时始终要尊重其时间顺序，即最好不要基于未来的数据进行训练。这是因为在实际应用中，我们通常只能使用过去的数据来预测未来的趋势。如果我们使用未来的数据来训练模型，那么模型将无法准确地预测未来的趋势，因为它没有考虑到未来的情况。因此，我们应该始终尊重时间顺序，并使用过去的数据来预测未来的趋势。

总结

内插法（在现有观测值之间进行估计）和外推法（对超出已知观测范围进行预测）在实践的难度上差别很大。因此，对于所拥有的序列数据，在训练时始终要尊重其时间顺序，即最好不要基于未来的数据进行训练。
序列模型的估计需要专门的统计工具，两种较流行的选择是自回归模型和隐变量自回归模型。
对于时间是向前推进的因果模型，正向估计通常比反向估计更容易。
对于直到时间步t的观测序列，其在时间步t+k的预测输出是k步预测;。随着我们对预测时间k值的增加，会造成误差的快速累积和预测质量的极速下降。