新闻中心

交叉验证的重要性不容忽视!

2023-11-06
浏览次数:
返回列表

为了不改变原始意思,需要重新表达的内容是:首先需要弄清楚为什么需要进行交叉验证?

交叉验证是机器学习和统计学中常用的一种技术,用于评估预测模型的性能和泛化能力,特别是在数据有限或评估模型对新的未见数据的泛化能力时,交叉验证非常有价值。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

交叉验证的重要性不容忽视!

在哪些情况下会使用交叉验证呢?

  • 模型性能评估:交叉验证有助于估计模型在未见数据上的表现。通过在多个数据子集上训练和评估模型,交叉验证提供了比单一训练-测试分割更稳健的模型性能估计。
  • 数据效率:在数据有限的情况下,交叉验证充分利用了所有可用样本,通过同时使用所有数据进行训练和评估,提供了对模型性能更可靠的评估。
  • 超参数调优:交叉验证通常用于选择模型的最佳超参数。通过在不同数据子集上使用不同的超参数设置来评估模型的性能,可以确定在整体性能上表现最好的超参数值。
  • 检测过拟合:交叉验证有助于检测模型是否对训练数据过拟合。如果模型在训练集上的表现明显优于验证集,可能表明存在过拟合的情况,需要进行调整,如正则化或选择更简单的模型。
  • 泛化能力评估:交叉验证提供了对模型对未见数据的泛化能力的评估。通过在多个数据分割上评估模型,它有助于评估模型捕捉数据中的潜在模式的能力,而不依赖于随机性或特定的训练-测试分割。

交叉验证的大致思想可如图5折交叉所示,在每次迭代中,新模型在四个子数据集上训练,并在最后一个保留的子数据集上进行测试,确保所有数据得到利用。通过平均分数及标准差等指标,提供了对模型性能的真实度量

交叉验证的重要性不容忽视!

一切还得从K折交叉开始。

KFold

在Sklearn中已经集成了K折交叉验证,这里以7折为例:

from sklearn.datasets import make_regressionfrom sklearn.model_selection import KFoldx, y = make_regression(n_samples=100)# Init the splittercross_validation = KFold(n_splits=7)

交叉验证的重要性不容忽视!

还有一个常用操作是在执行拆分前进行Shuffle,通过破坏样本的原始顺序进一步最小化了过度拟合的风险:

cross_validation = KFold(n_splits=7, shuffle=True)

交叉验证的重要性不容忽视!

这样,一个简单的k折交叉验证就能够完成了,请务必查看源代码!请务必查看源代码!请务必查看源代码!

StratifiedKFold

StratifiedKFold是专门为分类问题而设计。

在有的分类问题中,即使将数据分成多个集合,目标分布也应该保持不变。比如大多数情况下,具有30到70类别比例的二元目标在训练集和测试集中仍应保持相同的比例,在普通的KFold中,这个规则被打破了,因为在拆分之前对数据进行shuffle时,类别比例将无法保持。

为了解决这个问题,在Sklearn中使用了另一个专门用于分类的拆分器类——StratifiedKFold:

from sklearn.datasets import make_classificationfrom sklearn.model_selection import StratifiedKFoldx, y = make_classification(n_samples=100, n_classes=2)cross_validation = StratifiedKFold(n_splits=7, shuffle=True, random_state=1121218)

交叉验证的重要性不容忽视!

尽管与KFold看起来相似,但现在在所有的split和迭代中,类别比例保持一致

ShuffleSplit

有时只需多次重复进行训练/测试集分割的过程,这种方式与交叉验证非常相似

挖错网 挖错网

一款支持文本、图片、视频纠错和AIGC检测的内容审核校对平台。

挖错网 185 查看详情 挖错网

在逻辑上来说,通过使用不同的随机种子生成多个训练/测试集,应该在足够多的迭代中,类似于一个稳健的交叉验证过程

Scikit-learn库中也提供了相应的接口:

from sklearn.model_selection import ShuffleSplitcross_validation = ShuffleSplit(n_splits=7, train_size=0.75, test_size=0.25)

交叉验证的重要性不容忽视!

TimeSeriesSplit

当数据集为时间序列时,不能使用传统的交叉验证,这将完全打乱顺序,为了解决这个问题,参考Sklearn提供了另一个拆分器——TimeSeriesSplit,

from sklearn.model_selection import TimeSeriesSplitcross_validation = TimeSeriesSplit(n_splits=7)

交叉验证的重要性不容忽视!

在验证集始终位于训练集的索引之后的情况下,我们可以看到图形。这是由于索引是日期,这意味着我们不会意外地在未来的日期上进行时间序列模型的训练,并对之前的日期进行预测

非独立同分布(non-IID)数据的交叉验证

以上方法是针对独立同分布数据集进行处理的,即生成数据的过程不会受到其他样本的影响

然而,在某些情况下,数据并不满足独立同分布(IID)的条件,即一些样本之间存在依赖关系。这种情况在Kaggle竞赛中也有出现,比如Google Brain Ventilator Pressure竞赛。该数据记录了人工肺在数千个呼吸过程中(吸入和呼出)的气压值,并且对每次呼吸的每个时刻进行了记录。每个呼吸过程大约有80行数据,这些行之间是相互关联的。在这种情况下,传统的交叉验证方法无法使用,因为数据的划分可能会“刚好发生在一个呼吸过程的中间”

这可以被理解为需要对这些数据进行“分组”,因为组内数据是有关联的。举个例子,当从多个患者收集医疗数据时,每个患者都有多个样本。然而,这些数据很可能会受到患者个体差异的影响,因此也需要进行分组

往往我们希望在一个特定组别上训练的模型是否能够很好地泛化到其他未见过的组别,所以在进行交差验证时给这些组别数据打上“tag”,告诉他们如何区分别瞎拆。

在Sklearn中提供了若干接口处理这些情况:

  • GroupKFold
  • StratifiedGroupKFold
  • Le*eOneGroupOut
  • Le*ePGroupsOut
  • GroupShuffleSplit

强烈建议搞清楚交叉验证的思想,以及如何实现,搭配看Sklearn源码是一个肥肠不错的方式。此外,需要对自己的数据集有着清晰的定义,数据预处理真的很重要。

以上就是交叉验证的重要性不容忽视!的详细内容,更多请关注其它相关文章!


# 交叉验证  # veo  # 不容忽视  # 多个  # 情况下  # 未见  # 是在  # 源代码  # 机器学习  # 编辑器  # 塘厦比较好的网站推广  # 青岛流体设备网站建设  # 山东省旅游推广中心网站  # 淘宝seo是什么广告  # 潍坊网站建设主页  # 宿州网站建设中心  # 厦门精准营销推广  # 开源  # 请务必  # 迭代  # 白云外贸网站推广平台  # seo选手  # seo标题怎么打开 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 市盈率和市净率是什么意思  2026年将会大爆发的15个新科技  如何通过命令系统还原  网络光刻机是干什么用的  汽车排量是什么意思  driver是什么意思  混合固态硬盘如何分区  iPhone无法打开YouTube原因分析与解决方案  区块链的热闹将何去何从?  单片机.lib文件怎么打开  为什么进行域名解析  如何用ftp连接命令行  固态硬盘装完如何使用  课程伴侣电脑怎么登录  华为5g手机掉了怎么定位找回  access 如何输入命令  折叠屏手机哪个有性价比  苹果16日发售哪些机型  系统如何装在固态硬盘  如何加装固态硬盘  j*a怎么求数组均值  linux如何调出命令行  j*a数组求和怎么算  市盈率tt的扣非是什么意思  typescript书籍哪个好  苹果16有哪些黑科技  有什么基础可以学typescript  征信不好如何恢复信誉度 ‌征信不好恢复信誉度的方法  苹果16充电方式有哪些  春运抢票还用取票吗  苹果16新增哪些功能  typescript是什么软件  哪个牌子的折叠屏手机好  市盈率ttm是什么意思  如何查看网站域名解析  手机全功能type-c接口是什么意思  为什么ai老是说链接面板中缺少某些文件  tft单片机怎么写彩屏  类似微信的聊天软件有哪些  怎么下载360桌面壁纸  typescript和哪个语音很像  哪些编程软件需用typescript  春运抢票到哪里抢票啊  typescript怎么写多个构造方法  空调主板单片机怎么拆开  typescript干什么的  typescript怎么设置滚动条  市盈率292是什么意思  solo交友软件怎么恢复聊天记录  怎么批量烧写单片机 

搜索