日本における住所データの状況は未開のジャングルか、というレベルの代物でして・・・
例えば、アプリケーション内で郵便番号から住所を引いたり、その逆をしようとすると日本郵便が提供している住所CSVデータ「KEN_ALL.CSV」(なぜか大文字のファイル名と拡張子・・前世紀のDOS時代の代物か?みたいな)を使うことになると思うのですが、これがまた滅茶苦茶なデータで、もうKEN_ALL.CSVという単語を聞くだけでひきつけを起こしそうになるほど酷いのが有名です。
日本郵便の「KEN_ALL.CSV」といえば、その汎用性の低い仕様ゆえ、かねてよりエンジニアの間では悪評が噴出していており、使いやすい形式に変換するための民間サービスまで登場していた。総務省はデジタル庁とも協議のうえでこれらに改善を施す旨公表していたが、改善された新たなCSVデータが6月30日に公開されたことが明らかになった。具体的には、半角カナだった読み仮名が全角カナへと変更されたほか、38文字を超えると分割されていたレコードを1つに統合。さらに文字コードはShift-JISからUTF-8へと変更されるなど、大幅な改善が行われている。まだ別の課題は残っているものの、従来では考えられなかった大きな進歩だ。
2023年7月6日不評だった「KEN_ALL.CSV」大幅改善で話題に。代替となる住所CSVデータを日本郵便が公開、カナ全角化・レコード統合・UTF-8導入など【やじうまWatch】 - INTERNET Watch
これ、2023年の記事ですが、記事中にもあるように、これでもまだまだ問題が残っていて使い物にならないので、民間の方が独自に「郵便番号データ(加工済バージョン)」として、データを修正したもの「x-ken-all.csv」を公開してくれてたりします。
・町域名が「以下に掲載がない場合」の場合は、ブランク(空文字)に置換
・町域名が「○○市(または町・村)の次に番地がくる場合」の場合は、ブランク(空文字)に置換
・町域名が「○○市(または町・村)一円」の場合は、ブランク(空文字)に置換
・町域名で、丸括弧で囲まれている部分を除去
※町域名の文字数が多いために複数行に分割されてしまっている場合は、1行にマージしておいてから丸括弧を除去します。
※括弧内の文字が「地名」や「ビルの階」など、住所として使えそうなものは町域名の末尾に追加します。
※括弧内に地名が複数列挙されている場合は複数行に分割します。
ありがたや。
「総務省はデジタル庁とも協議のうえ」でこれなんですから、一体全体、総務省もデジタル庁も何を考えてるのかって感じですが、ぶっちゃけ日本全体がそんなレベルなんで、イチイチ嘆いていてもしょうがありません(投げやり)。
そんな未開な状況の日本ですが、デジタル庁において「郵便番号と町字データの紐づけを行う」ということになり、やっとまともな状況になろうとしつつあります。
「令和7年度中にデジタル庁において、郵便番号と町字データの紐づけを行う」
「公的基礎情報データベース整備改善計画 (PDF注意)」 15P
町字データは、いわゆる「市区町村マスター」みたいなのにつかわれるデータです。これに郵便番号が付加されると。今でも町字データに郵便番号のカラムは存在しているけど、一部レコードにしか実際の郵便番号データは入ってなくて全然不完全な状態でKEN_ALLの代わりとしては使い物にはなりませんでした。
因みに、このデジタル庁の「全国 町字データ」のCSV「mt_town_all.csv」を、扱いやすいSQLiteデータベース形式に変換するコンバーター、GUIアプリケーションを丸一日かけてチョロッとつくりました。ついでに、都道府県の「mt_pref_all.csv」と、前述の「x-ken-all.csv」もSQLite化できるようにしてあります。

CSVパースしてSQLiteデータベースにぶっこむだけなんで、しごく単純、簡単なアプリです(とはいっても処理はちゃんと非同期&マルチスレッド化している)。独自に何か追加したり処理を挟みたかったら適当にソース弄ってください。GitHubでオープンソースで公開しています。
単独のGUIアプリにしたのは、こういう住所関連のデータは適時更新されるので、一回だけじゃなく何度も変換しなければならないため、ユーザー環境で誰でもいつでも簡単にデータ更新を出来るようにしておきたかったのです。
デジタル庁って出来てからまるで役に立つことしてないですけれど、少なくとも「KEN_ALL.CSV」が不要になる程度のデータをメンテして公開してくれるのであれば「デジタル庁も少しは仕事しているな」と言えるようになりますね。
どうせなら、「路線と駅」のマスタデータも公開&メンテしてくれるといいんですけれどね。
ただし・・・、「アドレス・ベース・レジストリ ダウンロードサイト」 も滅茶苦茶で一体全体、誰の為に作ってるのかまったくもって不明。さらに、CSVのカラム順の仕様を確認しようとしたら、マイクロソフトの表計算用のエクセル形式のファイルをダウンロードさせられたりして、本気でアレじゃないかとも思いましたが・・・。デジタル庁とかいう名前が恥ずかしいぐらいであります。
追記:mt_town_all.csvの「丁目」のカラムのデータ、「1丁目」と「一丁目」という表記ゆれが存在するのだけれども、大丈夫なんだろうか・・・いや良くないと思うのだけれども。