炼数成金 门户 商业智能 机器学习 查看内容

半监督学习的新助力:无监督数据扩增法

2019-9-26 10:01| 发布者: 炼数成金_小数| 查看: 13359| 评论: 0|原作者: Qizhe Xie (学生研究员) 与 Thang Luong (高级研究员)|来自: Google

摘要: 深度学习的成功在很大程度上离不开一些关键因素的驱动,例如算法改进、并行处理硬件 (GPU/TPU) 以及可获取的大规模标记数据集(如 ImageNet)。然而,当标记数据稀缺时,我们便难以训练神经网络,使其发挥出色性能。 ...

tm 工具 模型 测试 计算机

深度学习的成功在很大程度上离不开一些关键因素的驱动,例如算法改进、并行处理硬件 (GPU/TPU) 以及可获取的大规模标记数据集(如 ImageNet)。然而,当标记数据稀缺时,我们便难以训练神经网络,使其发挥出色性能。

注:ImageNet 链接
http://www.image-net.org/

在此情况下,我们可使用数据扩增 (data augmentation) 方法(如对句子进行释义或旋转图像),以显著扩增带标记样本的数量。近期,众多领域(如自然语言处理 (NLP)、计算机视觉 (CV) 和语音识别)均已在数据扩增的设计方法上面取得重大进展。但很遗憾,数据扩增通常仅限于监督学习,而该类学习需将标签从原始样本转移至扩增样本。 

训练文本数据(上图)与训练图像数据(下图)的扩增操作示例

在近日所著的《用于一致性训练的无监督数据扩增 (UDA)》(Unsupervised Data Augmentation (UDA) for Consistency Training) 一文中,我们作出以下论证:研究人员还可通过对未标记数据执行数据扩增,从而显著改进半监督学习 (semi-supervised learning, SSL)。我们的研究结果为近期半监督学习的复苏提供了数据支撑,其表明:

即便纯监督学习所使用的标记数据比 半监督学习 多出数个数量级,半监督学习 的性能仍能与之匹敌,甚至表现更佳;
半监督学习 在文本和图像数据方面均表现良好;
半监督学习 可与迁移学习有效结合,如在 BERT 中进行微调。

我们已将代码开源 (GitHub),可供社区用户复制并进行构建。

注:用于一致性训练的无监督数据扩增 (UDA) 链接
https://arxiv.org/abs/1904.12848

BERT 链接
https://github.com/google-research/bert

GitHub 链接
https://github.com/google-research/uda

无监督数据扩增详述
无监督数据扩增 (UDA) 支持使用标记数据和未标记数据。对于标记数据,UDA 采用监督学习的标准方法计算损失函数,从而训练模型,如下图左侧部分所示。而对于未标记数据,UDA 则使用一致性训练来对未标记样本与经过扩增的未标记样本强制实现相似预测,如下图右侧部分所示。

我们将相同模型应用在未标记样本与经过扩增的对应样本上,来生成两个模型预测,并据此计算一致性损失(即两个预测分布之间的距离)。之后,UDA 会同时优化标记数据的监督损失以及未标记数据的无监督一致性损失,从而计算出最终损失。

无监督数据扩增 (UDA) 概览,左侧:计算标记数据的标准监督损失。右侧:对未标记数据,计算该样本与对应的扩增样本之间的一致性损失

通过最小化一致性损失,UDA 将标签信息从标记样本顺利传递至未标记样本。直观地说,我们可以将 UDA 视为间接迭代过程。首先,该模型依赖少量标记样本对部分未标记样本作出正确预测,并据此通过一致性损失 (consistency loss) 来将标签信息传递至经过扩增的对应样本。随时间推移,越来越多的未标记样本将会得到正确预测,这反映出模型的泛化能力也在逐步提升。我们已对其他各类噪声(如高斯噪声、对抗噪声等)进行一致性训练测试,最终发现数据扩增的表现在很多方面要优于其他噪声,因而UDA能在自然语言处理及计算机视觉等各类领域中展现出迄今最优的性能 (state-of-the-art, SOTA)。UDA 基于正在执行的任务应用了各类现有扩增方法,其中包括回译(Back Translation)、自动扩增(AutoAugment) 以及 TF-IDF 文本替换。

对UDA进行基准测试
UDA 在小型数据体系中极为有效。仅用 20 个标记样本并借助 50000 个未标记样本,UDA 便在 IMDb 情感分析任务中取得了 4.20 的错误率。此结果优于先前较先进 (SOTA) 的模型,后者是基于 25000 个标记样本进行训练且错误率为 4.32。而在大型数据体系中,UDA 亦能借助完整的训练集提供出色的结果。

注:IMDb 链接
https://ai.stanford.edu/~amaas/data/sentiment/

IMDb 基准测试,情感分析任务。UDA 在不同训练规模的监督学习中所展现的性能已超过较高水平

在 CIFAR-10 半监督学习基准测试中,UDA 的表现大幅优于目前所有的SSL方法,如 VAT、ICT 与 MixMatch。UDA 仅使用 4000 个样本便取得了 5.27 的错误率,性能可与采用 50000 样本的全监督模型相匹敌。此外,借助更先进的 PyramidNet+ShakeDrop 架构,UDA 还实现了史上较低错误率 2.7,与先前最出色的半监督结果相比,错误率降低了 45% 以上。在 SVHN 数据集中,UDA 仅凭 250 个标记样本便取得了 2.85 的错误率,性能堪与约使用 70000 标记样本训练的全监督模型相当。

基于 CIFAR-10 的 半监督学习 基准测试,图像分类任务。

UDA 超越了所有现有的半监督学习方法,而这些方法皆使用 Wide-ResNet-28-2 架构。UDA 仅凭 4000 个样本所取得的性能便可与使用 50000 样本的全监督模型相当。

在含有 10% 标记样本的 ImageNet 上,UDA 将 top-1 准确率从 55.1% 提升至 68.7%。在拥有完全标记的数据集与 130 万个额外未标记样本的大型数据体系中,UDA 会继续将 top-1 准确率由 78.3% 提升至 79.0%。

注:ImageNet 链接
http://www.image-net.org/challenges/LSVRC/2012/

UDA源码发布
我们已发布 UDA 的代码库以及所有数据扩增方法(如使用预训练翻译模型进行回译),可供用户重现我们的实验结果。我们期望此次发布将能进一步推动半监督学习的发展。

注:代码库 链接
https://github.com/google-research/uda

致谢
特别感谢本文的联合作者 Zihang Dai、Eduard Hovy 与 Quoc V. Le。另外还要感谢 Hieu Pham、Adams Wei Yu、Zhilin Yang、Colin Raffel、Olga Wichrowska、Ekin Dogus Cubuk、Guokun Lai、Jiateng Xie、Yulun Du、Trieu Trinh、Ran Zhao、Ola Spyra、Brandon Yang、Daiyi Peng、Andrew Dai、Samy Bengio 和 Jeff Dean 对此项目的热诚帮助。预印本可于网上获取。

如果您想详细了解 本文 的相关内容,请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题:
自然语言处理 (NLP)
(https://arxiv.org/abs/1804.09541)

计算机视觉(CV)
(https://ai.googleblog.com/2018/06/improving-deep-learning-performance.html)

语音识别
(https://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html)

高斯噪声
(https://tensorflow.google.cn/tfx)

对抗噪声
(https://github.com/tensorflow/tfx/blob/master/CONTRIBUTING.md)

回译
(https://arxiv.org/abs/1511.06709)

自动扩增
(https://arxiv.org/abs/1805.09501)

CIFAR-10 
(https://www.cs.toronto.edu/~kriz/cifar.html)

 VAT
(https://arxiv.org/abs/1704.03976)

ICT 
(https://arxiv.org/abs/1903.03825)

PyramidNet+ShakeDrop
(https://arxiv.org/abs/1802.02375)

SVHN
(http://ufldl.stanford.edu/housenumbers/)

声明:本文版权归原作者所有,文章收集于网络,为传播信息而发,如有侵权,请联系小编及时处理,谢谢!

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括:各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2019-10-16 12:38 , Processed in 0.131686 second(s), 25 queries .