
yasuokaの日記: 書写言語研究におけるサンプルデータの重要性と妥当性 3
私(安岡孝一)の2016年2月26日の日記の読者から、近江龍一・西原陽子・山西良典の『ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング』(人工知能学会第31回全国大会論文集, 2M2-OS-34a-1, 2017年5月24日)という論文を読んでほしい、との御連絡をいただいた。読んでみたのだが、書写言語研究におけるサンプルデータの重要性を全く理解していない論文で、正直、頭が痛くなった。
本研究では猥褻な表現に関する文を集めるために,pixivに投稿されているR-18小説を用いた.R-18小説に分類される小説の中から,2016年10月のウィークリーランキングTop10の小説を選択し,分析に用いた.
そんな偏ったサンプルデータ10本で、まともな結果が出るわけが無いだろう。しかも、なぜpixivに限定しなければいけないのか、pixivに限定する意図は何なのか、この論文には全く書かれていない。pixivは本来「イラストコミュニケーションサービス」のサイトであり、イラストならまだしも、R-18小説を抽出しなければならない理由は無い。もし、どうしてもpixivに限定しなければならないのなら、少なくともその研究意図を、論文の中で明らかにすべきだろう。
というか、西原陽子と山西良典は、以前、キラキラネームの研究に際しても、かなりおかしなサンプルデータを使っており、私自身こっぴどく指摘した(これとかこれとかこれとかこれ)はずだ。インターネットでお手軽にサンプルデータを拾ってきたい気持ちは、まあ、理解できなくもないが、それでも研究を始める前に、そのサンプルデータの妥当性を検討しておくべきだ。サンプルデータをpixivのR-18小説に限定する妥当性があるのなら、その妥当性をぜひ明らかにしてほしい。
著作権法第三十条の四 (スコア:2)
今日の私(安岡孝一)の日記 [srad.jp]に、著作権法第三十条の四に関する話を、少しだけ書きました。よければどうぞ。
pixivを小説サイトに選んだ点の推測 (スコア:1)
観光とマンガ研究をしていて 台湾オタク旅日記と言う本を書いた丹羽真人と申します
Re:pixivを小説サイトに選んだ点の推測 (スコア:2)
silyne(丹羽真人)さん、そういうアヤシゲな「推測」を避ける意味もあって、私(安岡孝一)は
と書いたのですよ。この論文『ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング』の中には、「二次創作小説」という文字列は一切あらわれません。ですので「二次創作小説」にもとづく「推測」は、少なくとも私にとっては当を得ていません。元の論文をよく読んでから、もう少しちゃんとした「推測」をおこなうべきだろうと思います。