日本郵便のKEN_ALL.CSVが改善される 48
ストーリー by nagazou
改善 部門より
改善 部門より
あるAnonymous Coward 曰く、
郵便番号と住所の変換システムを扱うエンジニアの間で悪名高かったKEN_ALL.CSVだが、2023年6月更新分より、文字コードがUTF-8に、フリガナが全角カタカナになり、町域名が長いときも複数レコードに分割されなくなったファイルが新たに追加された模様。従来通りの書式のファイルもダウンロードできる。今後は町域名に含まれている自然言語の注釈(「その他」「※番地」「以下に記載のない場合」など)をフラグに変換する予定もあるようだ(郵便番号データダウンロード)。
KEN_ALLじゃない (スコア:0)
1行にしたりUTF-8にしたutf_all.csvが別で作られるようになっただけで
KEN_ALLはKEN_ALLのまま
Re: (スコア:0)
例え悪名高いKEN_ALLといえど、使っている人が多いから切り捨てられないというわけですな。
Re: (スコア:0)
既に専用のパーサーを書いてしまったからなぁ。
どうせ新しくするなら、CSVもやめてJSONにしたら、使いやすくてみんな喜んだだろうに。
Re: (スコア:0)
Re: (スコア:0)
こういう純粋な二次元表形式で表せるデータならCSVの方が冗長性がなくパースも高速ですっきりする
Re: (スコア:0)
CSVは方言が多すぎて、すっきりはしないだろ。
Re: (スコア:0)
KEN_ALL.CSVで使われてる形式が安定していればいいだけの話で、それ以外のCSVの読み込みまで気にする必要はない。
Re: (スコア:0)
方言に対応させて作った自前の専用CSVパーサーよりも、圧倒的な実績がある汎用のJSONパーサーのほうが安定してるだろ。
冗長性や、速度を気にするようなサイズでもない。
Re: (スコア:0)
Excelで読めない時点で論外。
Re: (スコア:0)
JSONとの対比の話題でExcel持ち出すのが論外
Re: (スコア:0)
JSONとの対比の話題で利用方法に考えが至らないのが論外
Re: (スコア:0)
CSVファイルをExcelで読んでぶっ壊す奴は死んだほうがいい。
安易にExcelと関連付けされないように、拡張子を変えておくのが推奨。
Re: (スコア:0)
中身がcsvでも拡張子はtxtにしておいた方が無難
Excelでの取り回しもそっちの方が楽だし
Re: (スコア:0)
KEN_ALL.CSVはまさに純粋な二次元表形式だと思ってたら足元をすくわれる奴
Re:Re: (スコア:0)
まだ"以下に掲載がない場合"や"一円"とかは残っているので自分のは使い道はありそうです
Re: (スコア:0)
KENとは何だったのか?
Re: (スコア:0)
都道府県別に提供しているファイル結合したものだから。
なぜファイルを都道府県別にしたのかは理解に苦しむが。
Re:KEN_ALLじゃない (スコア:1)
>なぜファイルを都道府県別にしたのかは理解に苦しむが。
郵便とか公務員の仕事なら都道府県単位で分けられるからじゃないすかね
民間の営業でもよくあるし
Re: (スコア:0)
分けて処理するのはコンピュータがやればいいことで、ダウンロードをバラバラにする必要はない。
Re: (スコア:0)
元々の担当(部署)が別ならファイルも別にするよね
件名か県を示すコードのフィールドを設定していたら楽そうですね
Re: (スコア:0)
元がどうだろうと、一旦DBに突っ込んでから公開用のデータを出力するだろ。
Re: (スコア:0)
s/件名/県名/
Re: (スコア:0)
たとえば毎年各県の郵便局から提出されたファイルを元にしていて、提出時期がバラバラでALLだけだと公開が遅くなりすぎるからとか。
Re: (スコア:0)
ファイルを分割するの好きな人いるよね。
PDFが章ごとにわけられててダウンロードに手間がかかる、というのをよく見る。主に役所とかで。
まあダウンロードは最初だけだけど、ファイル名が番号でなく章タイトルによる名前になってたりして順番がわからない、というようなことも。
Re:KEN_ALLじゃない (スコア:1)
ファイル名が番号も結構困るなぁ
国税庁由来の02(3).pdfとかがいっぱいダウンロードフォルダにある。かっこ部分はWindowsがつけた部分
Re: (スコア:0)
自分の県だけ必要な場合も多いからじゃないの?
Re: (スコア:0)
特定の県の住所しか処理しないシステムなんてあるのか?
仮にあったとしても特殊過ぎて多くはないだろ。
Re: (スコア:0)
一斉に全国が更新されるわけじゃない場合、分割されてたほうが楽だろ。
それに並行処理するにも元ネタが分割してあったほうが楽。
Re: (スコア:0)
http://www7b.biglobe.ne.jp/~kenken_y/zipcsv/zip01.html [biglobe.ne.jp]
少なくとも2002年にはサービス提供してたみたいね
ADSLの頃か。当時はファイルサイズを気にしてたかも
Re: (スコア:0)
分割して処理しなければならないような量のデータじゃない。
Re: (スコア:0)
郵便番号の本来の用途である郵便配達は特定の県の住所しか使わない。
Re:KEN_ALLじゃない (スコア:1)
Re: (スコア:0)
Re: (スコア:0)
県外なら県がわかれば十分だからなぁ
Re: (スコア:0)
ボクは郵便配達と郵便局間輸送の区別が付きませんまで読んだ。
Re: (スコア:0)
Re: (スコア:0)
ちなみに内閣府が祝日CSVでやらかしてる。これも「CSV」とは名ばかりのアレな形式だったな
Re: (スコア:0)
要件や利用方法を考慮することなく頭ごなしにCSVを否定する時点で、君の情報リテラシーの欠如を疑う。
Re: (スコア:0)
こういうタイプが担当になると、明確に規格化されてるけど誰も使ってない謎フォーマットで公開し始めたりするんだよね。本人は謎の正義感で高揚してたりするから非常に厄介。
あと、このタイプはやけに頭が固くて一度インプットされた情報がなかなか抜けない上に最新情報を追わないのも困るんだよね。大昔のcsvが規格化されていなかった記憶がいつまでも更新されない。今の役所が公開してるcsvデータはRFC4180準拠とするように定められてる。ちゃんとオープンデータ基本指針とかオープンデータガイドとかをフォローしてれば常識なんだけどね。
Re: (スコア:0)
内容変えたらファイル名も変えろ
Re: (スコア:0)
Re: (スコア:0)
ファイル名なんて使ったり保存したりするときに便利な名前に変えておけばいいだけなのに、愚かな人にはそれがわからないのです。
Re: (スコア:0)
🤔
Re: (スコア:0)
笑えるww
IMEの地名辞書 (スコア:0)
使いやすくなったのなら、久しぶりに作り直してみよう。
Web予測変換で変換できるから最近需要がないようだがね。