オープンデータセットが必要だ 機械学習は数多くのコミュニティが交わりつつ発展しています。機械学習モデルを限られた人員や時間の中で円滑に作成するには、情報資源を有効に活用する必要があり、オープンソースだけではなく、データも再利用しやすい形で公開するオープンデータセットの必要性が急速に高まっています。 しかし、OSS精神あふれる開発者が huggingface 等のプラットフォームを用いてデータセットを公開したいと考えても、数多くあるライセンスの中でどのライセンスを選択すれば良いのか、そもそも何を公開して良いのかというのは、非常に悩ましい問題であり、データセットを公開するハードルは高くあり続けています。公開に足踏みするために、データセットがコミュニティ内部でのみ使用されているケースが数多くある状況を、もったいないと感じ、そのような問題意識の上で本稿を執筆しました。 本稿では、データセット向けの