概要 @enullperです。 YANS2019のアノテーションハッカソンに参加して優勝してきました。 アノテーションといえば地道に一つ一つデータを付与していくイメージがあると思いますが、今回は「アノテーションをハックする」ことをチームのテーマとして如何に効率的に大量の良質なデータを用意するかを考えました。 作業の効率化の結果、以下のことを達成しました。 与えられた生文データ全て(5519件)に擬似ラベル(後述の手法によって自動的に付与されたラベル)を付与 そのうち400文を 2人✖️3時間 で修正 Cross Validation において「全文に擬似ラベルを付与して一部を人手で修正」のデータセットによって訓練されたモデルの性能が「全文に擬似ラベル付与(修正なし)」のデータセットで訓練されたものの性能を上回ることを確認 運営側の用意したテストデータで優勝! アノテーションとは IT用語辞