河野太郎議員(@konotarogomame)とネ申エクセル問題&オープンデータの話 #ネ申エクセル #ネ申殺し
時系列が前後するが、先にネ申エクセルの簡単な説明
ざっくり解説、#ネ申エクセル #神エクセル とは 1. 主に統計データ等において、セル結合や、全角数値などによりデータの再利用性が著しく悪化したもの 2. 提出書類としてのエクセル等において、1マス1文字などの入力が著しく困難なもの …の二つのいずれかを指す
2016-11-05 00:16:23以下本文
現在、TLは河野太郎大絶賛の嵐(ほどではないけど)これだけ政治家さんの活動を褒めてる状態は珍しい。
2016-10-21 16:16:28こういう小さなことだけど、結果として大きな手間が発生する問題が解消するのはとってもいいことだな… 研究者として次に公共機関にお願いしたいことは、OpenData関連の togetter.com/li/469017 この問題の解消ではないかと思われます twitter.com/konotarogomame…
2016-10-21 23:14:21@konotarogomame いわゆる神エクセルといわれる問題で奥村先生のこちら oku.edu.mie-u.ac.jp/~okumura/SSS20… の文章が一番まとまった説明になるかと思います。(続く) twitter.com/konotarogomame…
2016-10-22 00:25:43@konotarogomame ざっくりと言うと、お役所的に美しい形式はPCで処理する場合に扱いにくいので、数値は半角に、単位を別に、一列に一つの系列のデータにする単語にスペースを入れない (続く)
2016-10-22 00:26:50@konotarogomame 「東 京」ではなく、「東京」など、「昭和30年('55)」ではなく「昭和」「30」「年」「1955」「年」に分けるなどなど、読んだエクセルをそっくりそのまま計算や集計などにそのまま再利用できる形式にしていただけると幸いです。 (続く)
2016-10-22 00:26:58@konotarogomame 例えば、出生数と就学児童数のデータが存在するとして、そこから東京都の1980年の出生数と、15年後の1995年の就学児童数(高校1年)の比較をしたい場合を考えます。 (続く)
2016-10-22 00:27:27@konotarogomame このとき、出生数のデータは 「昭和55年('80)」「東京都」「100万人」、就学児童数のデータは「一九九五」「 東 京 」「壱壱〇〇〇〇〇」などになっているとしたら、 (続く)
2016-10-22 00:28:41@konotarogomame 比較のためにはそれぞれを手作業で正規化して「1980」「東京」「1000000」と「1995」「東京」「1100000」に変換してからでないと容易には比較ができないことがなんとなくわかってもらえるかと思います。 (続く)
2016-10-22 00:28:56@konotarogomame 仮にこれが、二つの資料ではなく、10のデータ、100のデータの組み合わせで結果を求める場合、そのためにかかる手間は暴対なものになることが想像できるかと思います。 (続く)
2016-10-22 00:31:56@konotarogomame もし、これらのデータが、完全に同じ条件のもと作られるとしたら。この手のデータを扱う何十、何百の研究者がこの手間から解放されることになり、従前の問題と同様に研究者にかかる多くの労力が不要になります。 (続く)
2016-10-22 00:51:15@konotarogomame 総務省は一部ではありますがこちらで e-stat.go.jp/api/api-data/ APIとしてのデータ提供を開始しており、エクセルのフォーマットの統一だけでなくこちらがより拡充されると、 (続く)
2016-10-22 00:52:53@konotarogomame いろいろな分野で無駄な労力がさらにより省けるかと思われます。 よろしくご検討のほどお願い申し上げます。 (終わり)
2016-10-22 00:53:05@konotarogomame ここから先は余談ですが、この総務省のAPIとマイナンバーの公的個人認証サービスの民間開放の結果 #codeblue #codeblue_jp のeエストニア の話につながっていってくれれば夢があるなーとふと思いました。
2016-10-22 01:57:54“CODE BLUE 2016 Report:18分で会社が作れる、エストニアのデジタル社会インフラ事情 (1/2) - ITmedia エンタープライズ” htn.to/38D5UK2
2016-10-22 18:11:23どなたか、例えば政府のこのデータは、ここがこう悪くて、こう直すと良くなるということを、いくつか具体的に指摘していただけませんか。 twitter.com/narusase/statu…
2016-10-22 08:24:26@konotarogomame 例えばGoogleで「統計情報」で最初にヒットしたものからたどれる一番近い統計がこちらになります 農林水産省の平成28年果樹及び茶栽培面積(7月15日現在) maff.go.jp/j/tokei/kouhyo… (続く) twitter.com/konotarogomame…
2016-10-22 15:20:56@konotarogomame エクセルとしてはこちらです e-stat.go.jp/SG1/estat/Xlsd… 添付画像の前者が元の形式で、後者がデータとして扱いやすい形式になります。 (続く) pic.twitter.com/HuJpRQWUNP
2016-10-22 15:23:04.@konotarogomame 元の形式は目次、P4、P5、P6、P7、P8 のシートからなっています。 あくまで書類として扱う場合は、たいへん読みやすいのですが、データとして扱う場合には次の問題点があります。 (続く)
2016-10-22 15:25:44.@konotarogomame 1. 単年度の統計のため複数年度の比較、グラフ化が難しい(複数年度対応できるなら対前年の差はなくてもよい) 2. 作付け作物が複数のシートに分かれており、作物ごとの比較、グラフ化が難しい (続く)
2016-10-22 15:26:22