| Home |
2012.07.12
カフカ『変身』はラノベよりもずっと読みやすい←日本語難易度推定をやってみた
語彙学習を最適化するために、自分のレベルにあった文章を探すにはどうすればいいのだろう?
自分の語彙数は、
「語彙数推定テスト」( NTTコミュニケーション科学基礎研究所)
http://www.kecl.ntt.co.jp/icl/lirg/resources/goitokusei/goi-test.html
語彙推定テスト
で分かった。
それから語彙を増やすには読書が一番ということ、それも分からない言葉だらけのものより、出てくるほとんどの言葉は分かるが、その中に少しだけ知らない単語が入っているようなものを読むのがもっとも学習効率がよいらしいことも
できる子はできない子の4.6倍のボキャブラリーがあるー日本語の語彙の測る/増やす方法 読書猿Classic: between / beyond readers
で触れた。
あとは自分のレベルに合ったものを読むだけなのだが、今日はそれに役立つウェブサービスを紹介しよう。
帯2:日本語テキストの難易度推定
http://kotoba.nuee.nagoya-u.ac.jp/sc/readability/
(ことば不思議箱 http://kotoba.nuee.nagoya-u.ac.jp/)
日本語テキストの難易度を測る
帯2(obi-2.x) はテキストをコピペしてボタンを押すだけで、小学校から大学にかけての教科書127冊から抽出した1478サンプル、約100万字のコーパス(教科書コーパス)を用い、小学1年から高校3年+大学レベルの13段階で、日本語のテキストの難易度(リーダビリティ)を推定する。推定方法などについてはこちら。
以下、さまざまな日本語テキストについて、実際に難易度推定してみた。
なお短篇小説やそれより短いテキストは全文を、長編小説などは冒頭の章を対象とした。
中島敦 山月記
(→青空文庫で読む)
検定教科書が始まった当初から高校の国語の教科書に掲載しつづけた人気のナンバー。
漢文調の、昨今ほかではお目にかかれないような語彙のオンパレードのせいか、今回推定したなかでトップの難読度となった。
ただ書いてある出来事自体はシンプルなもので、小気味良いリズムを刻む文体のおかげもあって(あと振り仮名も多いし)、わりとサクサク読める。
さて、この短篇中の「なるほど、作者の素質が第一流に属するものであることは疑いない。しかし、このままでは、第一流の作品となるのには、どこか(非常に微妙な点において)欠けるところがあるのではないか、と」の下りに下線を引いて、「李徴の詩に不足していたものとは?」と設問すると、近頃の高校生の多くは「愛」と躊躇なく答えるのだそうだ。いろいろ心配になった教師が「では、愛があればいい詩が書けるの?」と問うと、これまた「はい、もちろん」と。
・・・・・・このあたりは難易度(リーダビリティ)推定の域を越える話なので、改めて。
内田樹 寝ながら学べる構造主義
プラトン(戸塚七郎訳) 饗宴
戸塚七郎訳の『饗宴』は、もともと旺文社文庫、今はグーテンベルク21が出している電子ブック版がそれ。
哲学書の中では破格に読みやすいとされるプラトンの対話篇だけど、文字bigramは騙せないのか、このランクにきた。
修士論文
広島大学の刊行物学術情報リポジトリでは修士論文の全文公開を行なっている。それらをサンプルに難易度(リーダビリティ)の推定を試みた。
結果はT13スケールで11から12(高校2年〜3年)レベルの難易度(リーダビリティ)だった。
上記の推定画像は、左が榎本美由紀「日本統治時期台湾の家政教育」(修士論文)[pdfファイル]、右が弘田昌士「癌診断支援システムのための大腸拡大内視鏡画像からの pit pattern と 血管領域の抽出方法」(修士論文)[pdfファイル]を推定したもの。
内閣総理大臣所信表明演説
総理大臣になったらやる所信表明演説。
1953年11月に行われた臨時国会で、吉田茂内閣が「それほど大げさな演説ではない」というニュアンスで「所信表明」という言葉を使ったのが始まりで、その後定着した。
上の画像は、その吉田茂「第18回国会(臨時会)における所信表明演説」を推定したもの。T13スケールで10(高校1年レベル)。
今の野田総理の所信表明演説は、T13スケールで9(中学3年レベル)。
なお全国紙の社説もT13スケールでだいたい10(高校1年レベル)程度である。
つまらないので推定画像は省略。
ドストエフスキー(北垣信行訳) カラマーゾフの兄弟
北垣信行訳の『カラマーゾフの兄弟』は講談社文庫だけれど、今はグーテンベルク21から電子ブック版が出てる。上の表紙は別のもの。
田中芳樹 銀河英雄伝説
カミュ(窪田啓作訳) 異邦人
コナン・ドイル(延原謙訳) シャーロック・ホームズの冒険
推計は『シャーロック・ホームズの冒険』の冒頭の一篇「ボヘミアの醜聞」から。
上遠野浩平 ブギーポップは笑わない
鎌池和馬 とある魔術の禁書目録(インデックス)
森鴎外 高瀬舟
(→青空文庫で読む)
夏目漱石 坊っちゃん
(→青空文庫で読む)
赤川次郎 セーラー服と機関銃
伏見つかさ 俺の妹がこんなに可愛いわけがない
大抵のラノベは、T13スケール=9(中学3年レベル)だった。
なんとか、それより難易度が下のものはないかと探してみつけたのがこれ。
寺田寅彦 茶わんの湯
(→青空文庫で読む)
話の内容が大きいので、主観的にはもっと読みやすいように感じていたが、T13スケールで8(中学2年レベル)。
ブログだったらこういうのが書きたいという、個人的には、お手本にしたい文章。
話があっちこっち飛びすぎ、という悪口も聞いたことがあるが、茶碗に注がれた湯からここまで話を広げることのできるしなやかな知識と、衒学風を感じさせない軽やかな筆致こそ見るべきもの。
鈴木三重吉が主幹する童話雑誌『赤い鳥』大正11年5月号(1922)に八條年也の変名で掲載されたが、弟子の中谷宇吉郎にはすぐにバレたとか。
文部省著作最後の固定国語教科書である小学校用 「国語 第六学年」(昭和22年)にも掲載された。
芥川龍之介 トロツコ
(→青空文庫で読む)
中学校の国語教科書に採用される芥川龍之介の短篇。
小川未明 赤いろうそくと人魚
(→青空文庫で読む)
「日本のアンデルセン」「日本児童文学の父」とよばれる小川未明の代表作。
海野十三 雪魔
(→青空文庫で読む)
海野十三は、日本で最初のSF作家。青空文庫にも膨大な作品がある(→作家別作品リスト)。
多くが児童文学と同じ難易度なので、〈大人が子どもに読ませたがる〉行儀の良い作品に我慢ならなくなったら、こちらにスイッチするのもいい。
今読むと藤子不二雄テイストというか(いや手塚治虫も含めて、戦後の少年漫画をつくっていった世代が海野十三から絶大な影響を受けているというのが本当だが)、どこか懐かしげなドキドキ感が楽しい。
トルストイ(北垣信行訳) イワンのばか
北垣信行訳の『イワンのばか』は講談社文庫だけれど、今はグーテンベルク21が出している電子ブック版がある。上の表紙は別のもの。なお菊池寛が訳したやつなら青空文庫で読める(→青空文庫で読む)。
カフカ(川崎芳隆訳) 変身
川崎芳隆訳の『変身』は旺文社文庫から出ていたが、今はグーテンベルク21が出している電子ブック版がそれ。上の表紙は別の訳者による新潮文庫のもの。
カフカ『変身』の難易度(リーダビリティ)は(内容はともかく)、見ての通り大抵のラノベ(T13スケール=8〜9:中学2〜3年レベル)よりも、はるかにやさしく読みやすい児童文学レベル。
ヘンテコでエッジのきいた掌編がたくさんつまった
もオススメ。
宮沢賢治 やまなし
(→青空文庫で読む)
最後も、教科書(小学6年国語)に長年掲載されている作品。
この「訳の分からない」短篇が(クラムボンが何なのか未だに分からない→諸説検討しているサイト)、今回調べた中では、ぶっちぎりに読みやすい難易度(リーダビリティ)T13スケール=4、小学4年レベルだった。恐るべし賢治。
(おまけ)
他人様の文章をまな板にのせた礼儀として、自分の書いたものも推定してみる。
このブログで一番やさしく書こうととした これは勉強のやり方が分からなくて困っている人のために書いた文章です 読書猿Classic: between / beyond readers の推定結果は、
〈やさしいめ〉の中学2年レベルでした。
最近ではいちばん硬そうな記事 文献学からはじまった → 研究する大学と専門分化した科学の起源 読書猿Classic: between / beyond readers だと、
あ、メーター振り切れました。
(さらに、おまけ)
難しい方の文章は実例が出たけれど、小学1〜3年レベルの文章と推定される文章ってどんなのだろうと探してみると、自分のブログその他で書いたものを推定している方がいた。
「わたしの日本語テキストの難易度は?」-もかりのデリケートゾーン (2008年5月 4日 (日))
http://mokari.cocolog-nifty.com/blog/2008/05/post_de56.html
「一つ前の記事」(難易度=8(中学2年))、「リラックスしてお笑いのことを書いているとき」(難易度=5(小学5年))、「イケメンにおくった甘えんぼうメール」(難易度=1(小学1年))、「自分の論文」(難易度=13(大学・一般)」)とあり、記事の最後にまとめが
自分の語彙数は、
「語彙数推定テスト」( NTTコミュニケーション科学基礎研究所)
http://www.kecl.ntt.co.jp/icl/lirg/resources/goitokusei/goi-test.html
語彙推定テスト
で分かった。
それから語彙を増やすには読書が一番ということ、それも分からない言葉だらけのものより、出てくるほとんどの言葉は分かるが、その中に少しだけ知らない単語が入っているようなものを読むのがもっとも学習効率がよいらしいことも
できる子はできない子の4.6倍のボキャブラリーがあるー日本語の語彙の測る/増やす方法 読書猿Classic: between / beyond readers
で触れた。
あとは自分のレベルに合ったものを読むだけなのだが、今日はそれに役立つウェブサービスを紹介しよう。
帯2:日本語テキストの難易度推定
http://kotoba.nuee.nagoya-u.ac.jp/sc/readability/
(ことば不思議箱 http://kotoba.nuee.nagoya-u.ac.jp/)
日本語テキストの難易度を測る
帯2(obi-2.x) はテキストをコピペしてボタンを押すだけで、小学校から大学にかけての教科書127冊から抽出した1478サンプル、約100万字のコーパス(教科書コーパス)を用い、小学1年から高校3年+大学レベルの13段階で、日本語のテキストの難易度(リーダビリティ)を推定する。推定方法などについてはこちら。
以下、さまざまな日本語テキストについて、実際に難易度推定してみた。
なお短篇小説やそれより短いテキストは全文を、長編小説などは冒頭の章を対象とした。
中島敦 山月記
(→青空文庫で読む)
検定教科書が始まった当初から高校の国語の教科書に掲載しつづけた人気のナンバー。
漢文調の、昨今ほかではお目にかかれないような語彙のオンパレードのせいか、今回推定したなかでトップの難読度となった。
ただ書いてある出来事自体はシンプルなもので、小気味良いリズムを刻む文体のおかげもあって(あと振り仮名も多いし)、わりとサクサク読める。
さて、この短篇中の「なるほど、作者の素質が第一流に属するものであることは疑いない。しかし、このままでは、第一流の作品となるのには、どこか(非常に微妙な点において)欠けるところがあるのではないか、と」の下りに下線を引いて、「李徴の詩に不足していたものとは?」と設問すると、近頃の高校生の多くは「愛」と躊躇なく答えるのだそうだ。いろいろ心配になった教師が「では、愛があればいい詩が書けるの?」と問うと、これまた「はい、もちろん」と。
・・・・・・このあたりは難易度(リーダビリティ)推定の域を越える話なので、改めて。
内田樹 寝ながら学べる構造主義
寝ながら学べる構造主義 (文春新書) (2002/06) 内田 樹 商品詳細を見る |
プラトン(戸塚七郎訳) 饗宴
饗宴 (岩波文庫) (2008/12) プラトン 商品詳細を見る |
戸塚七郎訳の『饗宴』は、もともと旺文社文庫、今はグーテンベルク21が出している電子ブック版がそれ。
哲学書の中では破格に読みやすいとされるプラトンの対話篇だけど、文字bigramは騙せないのか、このランクにきた。
修士論文
広島大学の刊行物学術情報リポジトリでは修士論文の全文公開を行なっている。それらをサンプルに難易度(リーダビリティ)の推定を試みた。
結果はT13スケールで11から12(高校2年〜3年)レベルの難易度(リーダビリティ)だった。
上記の推定画像は、左が榎本美由紀「日本統治時期台湾の家政教育」(修士論文)[pdfファイル]、右が弘田昌士「癌診断支援システムのための大腸拡大内視鏡画像からの pit pattern と 血管領域の抽出方法」(修士論文)[pdfファイル]を推定したもの。
内閣総理大臣所信表明演説
総理大臣になったらやる所信表明演説。
1953年11月に行われた臨時国会で、吉田茂内閣が「それほど大げさな演説ではない」というニュアンスで「所信表明」という言葉を使ったのが始まりで、その後定着した。
上の画像は、その吉田茂「第18回国会(臨時会)における所信表明演説」を推定したもの。T13スケールで10(高校1年レベル)。
今の野田総理の所信表明演説は、T13スケールで9(中学3年レベル)。
なお全国紙の社説もT13スケールでだいたい10(高校1年レベル)程度である。
つまらないので推定画像は省略。
ドストエフスキー(北垣信行訳) カラマーゾフの兄弟
カラマーゾフの兄弟1 (光文社古典新訳文庫) (2006/09/07) ドストエフスキー 商品詳細を見る |
北垣信行訳の『カラマーゾフの兄弟』は講談社文庫だけれど、今はグーテンベルク21から電子ブック版が出てる。上の表紙は別のもの。
田中芳樹 銀河英雄伝説
銀河英雄伝説 文庫 全10巻 完結セット (創元SF文庫) (2011/02/15) 田中 芳樹 商品詳細を見る |
カミュ(窪田啓作訳) 異邦人
異邦人 (新潮文庫) (1954/09) カミュ 商品詳細を見る |
コナン・ドイル(延原謙訳) シャーロック・ホームズの冒険
シャーロック・ホームズの冒険 (新潮文庫) (1953/03) コナン ドイル 商品詳細を見る |
推計は『シャーロック・ホームズの冒険』の冒頭の一篇「ボヘミアの醜聞」から。
上遠野浩平 ブギーポップは笑わない
ブギーポップは笑わない (電撃文庫 (0231)) (1999/06) 上遠野 浩平 商品詳細を見る |
鎌池和馬 とある魔術の禁書目録(インデックス)
とある魔術の禁書目録(インデックス) (電撃文庫) (2004/04) 鎌池 和馬 商品詳細を見る |
森鴎外 高瀬舟
(→青空文庫で読む)
夏目漱石 坊っちゃん
(→青空文庫で読む)
赤川次郎 セーラー服と機関銃
セーラー服と機関銃 (角川つばさ文庫) (2009/12/15) 赤川 次郎 商品詳細を見る |
伏見つかさ 俺の妹がこんなに可愛いわけがない
俺の妹がこんなに可愛いわけがない (電撃文庫) (2008/08/10) 伏見 つかさ 商品詳細を見る |
大抵のラノベは、T13スケール=9(中学3年レベル)だった。
なんとか、それより難易度が下のものはないかと探してみつけたのがこれ。
寺田寅彦 茶わんの湯
(→青空文庫で読む)
話の内容が大きいので、主観的にはもっと読みやすいように感じていたが、T13スケールで8(中学2年レベル)。
ブログだったらこういうのが書きたいという、個人的には、お手本にしたい文章。
話があっちこっち飛びすぎ、という悪口も聞いたことがあるが、茶碗に注がれた湯からここまで話を広げることのできるしなやかな知識と、衒学風を感じさせない軽やかな筆致こそ見るべきもの。
鈴木三重吉が主幹する童話雑誌『赤い鳥』大正11年5月号(1922)に八條年也の変名で掲載されたが、弟子の中谷宇吉郎にはすぐにバレたとか。
文部省著作最後の固定国語教科書である小学校用 「国語 第六学年」(昭和22年)にも掲載された。
芥川龍之介 トロツコ
(→青空文庫で読む)
中学校の国語教科書に採用される芥川龍之介の短篇。
小川未明 赤いろうそくと人魚
(→青空文庫で読む)
「日本のアンデルセン」「日本児童文学の父」とよばれる小川未明の代表作。
海野十三 雪魔
(→青空文庫で読む)
海野十三は、日本で最初のSF作家。青空文庫にも膨大な作品がある(→作家別作品リスト)。
多くが児童文学と同じ難易度なので、〈大人が子どもに読ませたがる〉行儀の良い作品に我慢ならなくなったら、こちらにスイッチするのもいい。
今読むと藤子不二雄テイストというか(いや手塚治虫も含めて、戦後の少年漫画をつくっていった世代が海野十三から絶大な影響を受けているというのが本当だが)、どこか懐かしげなドキドキ感が楽しい。
トルストイ(北垣信行訳) イワンのばか
イワンのばか (岩波少年文庫) (2000/10/18) レフ・ニコラーエヴィッチ トルストイ 商品詳細を見る |
北垣信行訳の『イワンのばか』は講談社文庫だけれど、今はグーテンベルク21が出している電子ブック版がある。上の表紙は別のもの。なお菊池寛が訳したやつなら青空文庫で読める(→青空文庫で読む)。
カフカ(川崎芳隆訳) 変身
変身 (新潮文庫) (1952/07/30) フランツ カフカ 商品詳細を見る |
川崎芳隆訳の『変身』は旺文社文庫から出ていたが、今はグーテンベルク21が出している電子ブック版がそれ。上の表紙は別の訳者による新潮文庫のもの。
カフカ『変身』の難易度(リーダビリティ)は(内容はともかく)、見ての通り大抵のラノベ(T13スケール=8〜9:中学2〜3年レベル)よりも、はるかにやさしく読みやすい児童文学レベル。
ヘンテコでエッジのきいた掌編がたくさんつまった
カフカ短篇集 (岩波文庫) (1987/01/16) カフカ 商品詳細を見る |
もオススメ。
宮沢賢治 やまなし
(→青空文庫で読む)
最後も、教科書(小学6年国語)に長年掲載されている作品。
この「訳の分からない」短篇が(クラムボンが何なのか未だに分からない→諸説検討しているサイト)、今回調べた中では、ぶっちぎりに読みやすい難易度(リーダビリティ)T13スケール=4、小学4年レベルだった。恐るべし賢治。
(おまけ)
他人様の文章をまな板にのせた礼儀として、自分の書いたものも推定してみる。
このブログで一番やさしく書こうととした これは勉強のやり方が分からなくて困っている人のために書いた文章です 読書猿Classic: between / beyond readers の推定結果は、
〈やさしいめ〉の中学2年レベルでした。
最近ではいちばん硬そうな記事 文献学からはじまった → 研究する大学と専門分化した科学の起源 読書猿Classic: between / beyond readers だと、
あ、メーター振り切れました。
(さらに、おまけ)
難しい方の文章は実例が出たけれど、小学1〜3年レベルの文章と推定される文章ってどんなのだろうと探してみると、自分のブログその他で書いたものを推定している方がいた。
「わたしの日本語テキストの難易度は?」-もかりのデリケートゾーン (2008年5月 4日 (日))
http://mokari.cocolog-nifty.com/blog/2008/05/post_de56.html
「一つ前の記事」(難易度=8(中学2年))、「リラックスしてお笑いのことを書いているとき」(難易度=5(小学5年))、「イケメンにおくった甘えんぼうメール」(難易度=1(小学1年))、「自分の論文」(難易度=13(大学・一般)」)とあり、記事の最後にまとめが
いろいろ調べてみると、mixiの日記(友達に近況を話す感じでかなり警戒心がなくリラックスしてお茶らけている感じ)の平均は学年で言うと、小学校4、5年くらい。のものが多いです。 羽を伸ばしていないブログの記事は、中学生くらい。ふざけないでちゃんと書いてるもの。 で、やっぱりイケメンにおくるメールは小学1年生以上になりませんでした。 |
- 関連記事
-
- 教科書は教えてくれないけれど知らないと教科書が読めない学習語リスト
- 子どもがつまずく抽象語のコア60語をその根っこから理解できる表
- カフカ『変身』はラノベよりもずっと読みやすい←日本語難易度推定をやってみた
- できる子はできない子の4.6倍のボキャブラリーがあるー日本語の語彙を測る/増やす方法
- では、子どもの〈見えない学力〉地頭、読む力に親は何ができるのか?
| Home |