交叉验证的重要性不容忽视！_陕西然坤悦科技有限公司

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 行业资讯

交叉验证的重要性不容忽视！

2023-11-06

浏览次数：次

返回列表

为了不改变原始意思，需要重新表达的内容是：首先需要弄清楚为什么需要进行交叉验证？

交叉验证是机器学习和统计学中常用的一种技术，用于评估预测模型的性能和泛化能力，特别是在数据有限或评估模型对新的未见数据的泛化能力时，交叉验证非常有价值。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在哪些情况下会使用交叉验证呢？

模型性能评估：交叉验证有助于估计模型在未见数据上的表现。通过在多个数据子集上训练和评估模型，交叉验证提供了比单一训练-测试分割更稳健的模型性能估计。
数据效率：在数据有限的情况下，交叉验证充分利用了所有可用样本，通过同时使用所有数据进行训练和评估，提供了对模型性能更可靠的评估。
超参数调优：交叉验证通常用于选择模型的最佳超参数。通过在不同数据子集上使用不同的超参数设置来评估模型的性能，可以确定在整体性能上表现最好的超参数值。
检测过拟合：交叉验证有助于检测模型是否对训练数据过拟合。如果模型在训练集上的表现明显优于验证集，可能表明存在过拟合的情况，需要进行调整，如正则化或选择更简单的模型。
泛化能力评估：交叉验证提供了对模型对未见数据的泛化能力的评估。通过在多个数据分割上评估模型，它有助于评估模型捕捉数据中的潜在模式的能力，而不依赖于随机性或特定的训练-测试分割。

交叉验证的大致思想可如图5折交叉所示，在每次迭代中，新模型在四个子数据集上训练，并在最后一个保留的子数据集上进行测试，确保所有数据得到利用。通过平均分数及标准差等指标，提供了对模型性能的真实度量

交叉验证的重要性不容忽视！

一切还得从K折交叉开始。

KFold

在Sklearn中已经集成了K折交叉验证，这里以7折为例：

from sklearn.datasets import make_regressionfrom sklearn.model_selection import KFoldx, y = make_regression(n_samples=100)# Init the splittercross_validation = KFold(n_splits=7)

交叉验证的重要性不容忽视！

还有一个常用操作是在执行拆分前进行Shuffle，通过破坏样本的原始顺序进一步最小化了过度拟合的风险：

cross_validation = KFold(n_splits=7, shuffle=True)

交叉验证的重要性不容忽视！

这样，一个简单的k折交叉验证就能够完成了，请务必查看源代码！请务必查看源代码！请务必查看源代码！

StratifiedKFold

StratifiedKFold是专门为分类问题而设计。

在有的分类问题中，即使将数据分成多个集合，目标分布也应该保持不变。比如大多数情况下，具有30到70类别比例的二元目标在训练集和测试集中仍应保持相同的比例，在普通的KFold中，这个规则被打破了，因为在拆分之前对数据进行shuffle时，类别比例将无法保持。

为了解决这个问题，在Sklearn中使用了另一个专门用于分类的拆分器类——StratifiedKFold：

from sklearn.datasets import make_classificationfrom sklearn.model_selection import StratifiedKFoldx, y = make_classification(n_samples=100, n_classes=2)cross_validation = StratifiedKFold(n_splits=7, shuffle=True, random_state=1121218)

交叉验证的重要性不容忽视！

尽管与KFold看起来相似，但现在在所有的split和迭代中，类别比例保持一致

ShuffleSplit

有时只需多次重复进行训练/测试集分割的过程，这种方式与交叉验证非常相似

挖错网

一款支持文本、图片、视频纠错和AIGC检测的内容审核校对平台。

185 查看详情挖错网

在逻辑上来说，通过使用不同的随机种子生成多个训练/测试集，应该在足够多的迭代中，类似于一个稳健的交叉验证过程

Scikit-learn库中也提供了相应的接口：

from sklearn.model_selection import ShuffleSplitcross_validation = ShuffleSplit(n_splits=7, train_size=0.75, test_size=0.25)

交叉验证的重要性不容忽视！

TimeSeriesSplit

当数据集为时间序列时，不能使用传统的交叉验证，这将完全打乱顺序，为了解决这个问题，参考Sklearn提供了另一个拆分器——TimeSeriesSplit，

from sklearn.model_selection import TimeSeriesSplitcross_validation = TimeSeriesSplit(n_splits=7)

交叉验证的重要性不容忽视！

在验证集始终位于训练集的索引之后的情况下，我们可以看到图形。这是由于索引是日期，这意味着我们不会意外地在未来的日期上进行时间序列模型的训练，并对之前的日期进行预测

非独立同分布（non-IID）数据的交叉验证

以上方法是针对独立同分布数据集进行处理的，即生成数据的过程不会受到其他样本的影响

然而，在某些情况下，数据并不满足独立同分布（IID）的条件，即一些样本之间存在依赖关系。这种情况在Kaggle竞赛中也有出现，比如Google Brain Ventilator Pressure竞赛。该数据记录了人工肺在数千个呼吸过程中（吸入和呼出）的气压值，并且对每次呼吸的每个时刻进行了记录。每个呼吸过程大约有80行数据，这些行之间是相互关联的。在这种情况下，传统的交叉验证方法无法使用，因为数据的划分可能会“刚好发生在一个呼吸过程的中间”