一貫性トレーニングのための教師なしデータ拡張

この記事では、教師なしデータ拡張を活用した一貫性トレーニングの手法を提案しています。半教師あり学習は、ラベル付きデータが不足している状況で深層学習モデルの性能を改善する可能性があります。著者たちは、ラベルなしデータに対してどのように効果的にノイズを加えるかの新しい視点を示し、高度なデータ拡張技術を利用することが半教師あり学習において鍵であると論じています。具体的には、RandAugmentやバックトランスレーションなどの方法を用いることで、異なるタスクにおいてパフォーマンスを大幅に向上させました。特にIMDbテキスト分類データセットでは、わずか20のラベル付きデータから優れたエラーレートを実現し、CIFAR-10ベンチマークでも従来の方法を上回る結果を示しました。この手法は、BERTからのファインチューニングとの組み合わせにも効果を発揮し、多量のデータ環境でも improvements をもたらします。