nagajisの日不定記。
本日のアクセス数:0|昨日のアクセス数:0
ad
はるか以前に作っていた峠データベースが完全死亡する前に抽出しておいたテキストと格闘している。Robinhood on BeOSしかもBFSのAttribute上に構築という奇妙稀天劣なデータベースで、まともに動いていたのは数カ月くらいだったろうと思うが、ともかくそのデータ部分だけを抽出してテキストファイルにしたものが残っている。約3MB。
峠、越、坂など峠地名7315を収録。データはおもにうおっちずから貰ったが峠本から拾って入力したものも数百あるはず。98%くらいは経緯度データと行政区データと2.5万図図版番号がある。70%くらいには標高も入っている(国土地理院が50mメッシュを無償公開していた頃にそのデータからおおよその標高を算出したもの。精度はあまりよくない)。5%くらいには関連情報もある。これを復活させたい。
ちょっとした長年の夢である。しかし場当たり的に積み上げ作り上げたデータであるうえに5年も前の代物だから思ったようにいかない。まずもって行政区が腐っている。市町村合併が進行中の頃だったため新旧入り交じっているうえ、妙な具合に略記してしまっていた。
山梨県大月市梁川町塩瀬/南都留郡秋山村寺下
山口県豊浦郡豊北町北宇賀/豊浦町宇賀
山口県玖珂郡周東町川上/岩国市相ノ谷
とかなっている。新旧市町村名は市町村コードと合併リストを使って正規化(だったっけ)すれば何とかなりそうだが、そのためには県名郡名を補完してやらなければならぬ(市町村コードは「○○市」または「△△郡××町(村)」のセットに振られている)。この補完作業が大きな障壁になっていたのだった。いきなり胸突八丁の急坂から始まる峠道のようなもの。
もともとこの表記は峠の経緯度の東西南北の4点のフル地名から都|道|府|県|市|区|郡|町|村でsplitして組み立てたものだ。この方向なら何とかならないでもない。しかしその仕組みを作ったのはもう5年も前の話であって、しかもperlは忘れてしまった。chimeisplit.plのソースを読んでもちんぷんかんぷんだしその逆などもってのほか。
泣きながら解読して、phpに書き直して(弱)、何とか4点フル地名に戻すことができた。仕組み的には至極単純だったのがそれを思い付くまでに1/4日かかった。寝ながら考えてふと思い立って目が冴えてしまい、わしわし書き直してようやく今に至。
これをテーブルに放り込めばとりあえずモノになる。tdbを流用すれば検索と詳細表示くらいは一気に出来る。経緯度→航空写真のテーブルもアルゴリズムもすでにphpで作ってあるしな。課題は市町村コードを使った正規化。まずそのデータを作るところから始めなければ。そうして正規化の下手糞なnagajisはどうやっていいやら想像もついてない(ばく