はじめに
年の瀬も迫る今日この頃、そろそろ年賀状の宛名書きに追われている方も多いのではないでしょうか。
一年の中で最も住所と向きあうこの時期、自分も年賀状の準備をしようと去年の年賀状を眺めていて、ふと思ったことがあります。
それは
「全国のn丁目で最も大きい数字の丁目は何丁目なのだろう」
ちょっと気になったら、夜も眠れなくなったので、安眠を得るために調べてみることにしました。
使ったデータ
全国の丁目まで含めた住所はe-statの統計データを拝借しました。
e-statとは「日本の統計が閲覧できる政府統計ポータルサイトです」(サイト説明文ママ)
人口や産業、国土などに関する統計情報を閲覧、ダウンロードすることができます。
今回は、このうち2020年国勢調査統計データの小地域(町丁・字等)データを使用しました。
データの取得の流れは以下の画像を参照
- トップのメニュー「統計データを活用する」から「地図」を選択
- 「統計データダウンロード」を選択
- 政府統計名から「国勢調査」を選択
- 「2020年」のメニューを開いて、「小地域(町丁・字等)」の中のデータを選択(今回は統計の数値は使わないので、男女別人口じゃなくても良い)。
- データは都道府県ごとでダウンロードできる。ほしい都道府県の「CSV」ボタンをクリックすると統計データがダウンロードできる。
今回活用した「小地域(町丁・字等)とは」
「札幌市中央区大通西一丁目」や「旭川市字近文五線」といった市区町村よりも小さい単位で集計したデータになります。
今回は地名だけ取得できればいいので、男女別人口である必要はないですが、小地域(町丁・字等)データにはこういった細かい区分の住所名がリストで得られるのでそれを活用しました。
全国分の小地域データを一括ダウンロード
小地域(町丁・字等)は都道府県ごとにダウンロードできるので、全国分となると47個分ダウンロードする必要があります。手作業でポチポチできなくもない数ですが、せっかくなので、一括ダウンロードしてみます。
言語は特になんでも良いですが、個人的に好きなRを使っています。
ダウンロード先のURLを確認
開発者モードでcsvのダウンロードボタンの要素を確認します。
aタグのhrefがダウンロード先のURLになります。
この画像で言うと
/gis/statmap-search/data?statsId=T001081&code=01&downloadType=2
となっている部分です。
このURLのミソの部分としては以下2点
- 相対パスになっているので、コード上でURLを叩いてファイルを取得する時には、このサイトの基底 URLである
https://www.e-stat.go.jp/gis
を頭につけて、絶対パスにしないといけない。 - URL内の
code=●●
部分で都道府県を識別している。
01:北海道、02:青森県、....、47:沖縄県という具合に、ここの数値を変えることでダウンロードしたい都道府県のファイルを取得することができる。
コード内容
#ダウンロードしたファイルの保存ディレクトリの指定
target_dir <- "/Users/Documents"
#都道府県コード分(1~47)繰り返す
for (no in 1:47) {
#都道府県コードが1や2など、1桁の時「01、02」などに桁調整をする
codeNo <- formatC(no,width=2,flag="0")
#ダウンロードファイルURL
abs_url <- paste("https://www.e-stat.go.jp","/gis/statmap-search/data?statsId=T001081&code=", codeNo , "&downloadType=2",sep="")
#保存ファイル名
save_name <- paste(target_dir,"/file",codeNo ,".zip",sep="")
#ファイルのダウンロード実行
download.file(url = abs_url,
destfile = save_name,
mode = "wb")
# 1ループごとに0.5秒待ってサーバーへの負荷をへらす
Sys.sleep(0.5)
#ダウンロードされるファイルはZip形式なので、そのままzip解凍する
unzip(save_name,exdir = target_dir)
}
コードは割愛しますが、これらのファイルをRで読んで、rbind
で1つのデータフレームに結合することで、全国の小地域住所目録ができました。
NAMEに「丁目」を含むデータのみに絞り込む
取得したデータのNAME列に市町村以下の住所が記載されているので、この値を活用してまずは「丁目」を含むデータのみに絞り込みたいと思います。
「丁目」を含んでいるかどうかは、stringr
パッケージのstr_detect
を使用します。
(str_detect
は指定した文字を含んでいるかどうかをTRUE,FALSEで返す)
さらにfilter()
でTRUEのデータのみに絞り込みます
library("stringr")
data$Chome_TF <- str_detect(data$NAME, pattern="丁目")
data2 <- filter(data,Chome_TF == TRUE)
「丁目」の前部分の抽出
続いて「丁目」の前についている数値の部分を抽出していきます。
まずNAMEの値から「丁目」と言う文字が何文字目に当たるかを調べます。
例えば「大通西一丁目」と言う地名なら「丁目」と言う文字は5文字目に当たります。
次に丁目の1つ左隣の文字が「一」や「二」、「十」などの数字を示す文字であるかを調べます。
さらにそのもう一つ左隣の文字が同じく数字を示す文字であるかをチェックして、そうでない時はそこまでの文字位置から丁目の前までの文字を抽出。数字を示す場合は、またその1つ隣の文字をチェック・・・・。と言う具合にしていきます
図でイメージするとこんな感じ
-
「丁目」と言う文字が何文字目にあるかを調べるには、同じく
stringr
パッケージのstr_locate
を使用
(str_locate
は指定した文字にマッチする箇所の文字位置を返す)
str_locate(data2[i,]$NAME, "丁目")[1,1]
一連の処理をコードで書くとこんな感じ
for (i in 1:nrow(chome)){
#「丁目」の文字位置を取得
chome_Num <- as.integer(str_locate(data2[i,]$NAME, "丁目")[1,1])
#フラグ設置
flg<- TRUE
#チェックする文字位置(最初は左に1つ目)
leftNum<-1
#フラグがTRUEの間は「丁目」の位置から左にn個目の文字を数字かどうかチェック。
while (flg ==TRUE){
if (str_sub(data2[i,4],start = chome_Num-leftNum,end=chome_Num-leftNum) %in% searchstr ){
#検査する文字位置を一つ左にずらす
leftNum <- leftNum+1
}else{
#対象文字が数字を示さない場合はフラグをFALSEにしてwhileループを脱出
flg <- FALSE
}
}
#丁目の数字部分を新規列に格納
chome[i,16] <- str_sub(chome[i,4],start = chome_Num-leftNum+1,end=chome_Num-1)
}
漢数字をアラビア数字に
数字は取得できたけど、表記が漢数字であるため、いろいろ扱いやすいようにアラビア数字に変換します。
変換には、こちらの方が素晴らしいツールを公開していたので、そのまま利用させていただきました。ありがとうございます。
結果発表
最も大きいn丁目
42丁目!!!
その場所北海道は帯広市、西一九条南四十二丁目とのこと。
地図で見るとこの辺りだそうです。帯広畜産大の北部。
(OpenStreetMap)
それぞれのn丁目の登場回数
せっかくここまでデータ整えたのでいろいろみてみようと思います。
まずはそれぞれのn丁目が全国に何箇所あるのかランキングにしてみました。
順位 | n丁目 | 箇所 |
---|---|---|
1 | 1 | 20,223 |
2 | 2 | 20,158 |
3 | 3 | 15,096 |
4 | 4 | 10,056 |
5 | 5 | 6,811 |
6 | 6 | 4,208 |
7 | 7 | 2,656 |
8 | 8 | 1,713 |
9 | 9 | 1,067 |
10 | 10 | 699 |
第3位は3丁目
第2位は2丁目
そして栄えある栄光の第1位は・・・・・・
1丁目
まぁ当然の結果ですね。。。はい。
n丁目があるからといってn-1丁目があるとは限らない
ただ、ここで気がついたのが、n丁目があるからといって必ずしもそれより小さい数字の丁目があるとは限らないということです。
例えば最も大きい数値を持つ帯広市西一九条南は42丁目、41丁目はあるけど、40丁目は存在しません。
これは北海道でよくあるn条n丁目といった条丁目制の住所では、1~10丁目は1条、11〜20丁目は2条というふうにn丁目と合わせてn条で区画を示しているので、単純にn条で全ての丁目が存在するわけではないのですね。
そのほか、欠番や合併などで今は存在しないn丁目もあるようです。
本当に最も大きいn丁目は40万越え!?
「最も大きいn丁目は帯広市西一九条南四十二丁目なんだぁ。」思って、データをざっとみていた時、見つけてしまったのです。
そう、もっと大きいn丁目を。
その数字 40万6丁目!!
場所は・・・石川県金沢市。
はい。。。すいません。こちら金沢市の四十万(しじま)という町名で、それの6丁目ということですね。
ちなみに場所で言うとこの辺りだそうです。
OpenStreetMap
最も大きいわけではないが10,000丁目というのも
こちらは花巻市の「南万丁目(みなみまんちょうめ)」や「上北万丁目(かみきたまんちょうめ)」と言う町名のようです。
地図で言うとこの辺り。
OpenStreetMap
まとめ
- 順当に最も大きい丁目は、42丁目(北海道帯広市西一九条南四十二丁目)
- 町名を含む最も大きい丁目は、400,006丁目(石川県金沢市四十万六丁目)
- 400,000には及ばないが10,000丁目もある(岩手県花巻市南万丁目)
終わりに
今回の内容をQiitaで記事にすべく、一通りデータの解析が終わって一息ついた時に、ふと「Google先生は知ってるんやろか」と気になって検索してみると・・・
しっかり出てきた〜〜!!
なんかわちゃわちゃコード書かんでも0.37秒で解決できたやんorz
とまぁ結論を得るのにえらい遠回りしてしまいましたが、テキスト処理の練習になったと思っときます。
ともあれ最も大きいn丁目も明らかになったことやし、これでゆっくり眠りにつくことができますZzz...
(はっ!!年賀状・・・)