地名解析辞書ファイルフォーマット¶

ここではCSV形式の地名解析辞書ファイルのフォーマットについて説明します。

CSVファイルの基本フォーマット¶

全般的な規則¶

地名語辞書のCSVファイルは RFC4180 に準拠します（Excel などの表計算ソフトで「CSV形式」として保存されるファイルは、この規約に従っています）
地名語1エントリを1行、各フィールドをカンマで区切ってカラムに記述します
複数の値が許可されているフィールドに値を記述する場合、半角のスラッシュ記号 / で区切って1カラム内に列挙します
文字エンコーディングはUTF-8とします
改行コードはCR+LFとします（Windowsの場合は特に問題ありませんが、 MacOSやUNIXの場合には注意してください）

先頭行に関する規則¶

先頭行には地名語のフィールド名を記述します
フィールド名は原則として地名語のデータ項目一覧から選択します
辞書固有の項目の場合は任意の項目名をつけて構いません
項目の順序は問いません
任意につけた項目名にはマルチバイト文字（日本語など）も利用できます

先頭行の例

entry_id,geonlp_id,body,prefix,suffix,ne_class,latitude,longitude,address,補足

固有名クラスに関する規則¶

固有名クラス (ne_class) はクラス一覧から選択してください。このリストでは不十分な場合には、固有名クラスの後ろに半角のスラッシュ記号「/」を付け、独自拡張クラスを定義することができます。

たとえば「井戸」を示すクラスを定義したいという場合、井戸は水道と関連が深いと考えて固有名クラス「基盤施設」を拡張し、「基盤施設/井戸」を使うことができます。

ただし無制限に拡張クラスが増えてしまうと、固有名クラスで検索するのが難しくなるので、できる限り一覧に示されている拡張クラスの例を利用してください。

現在のクラス一覧も固定したものではなく、利用状況に応じて改善していきます。

最小ファイルフォーマット¶

最も単純なCSV形式地名語辞書ファイルは、地名語のRequired項目のうち、辞書ID以外の6カラムだけを含むものです。

最小CSVファイルの例

entry_id,body,ne_class,latitude,longitude

このうちentry_idとbody以外は空欄でも構いません。 entry_id はファイル内での識別子として利用するため、値が重複しないようにしてください。

entry_id,body,ne_class,latitude,longitude
"01","北海道","","",""
"02","青森県","","",""
...

これだけでは単に地名のリストになってしまうので、固有名クラスや経緯度はできる限り空欄ではなく、適切な値を記載してください。

entry_id,body,ne_class,latitude,longitude
"01","北海道","都道府県","43.063102","141.352508"
"02","青森県","都道府県","40.824637","140.740619"
...

標準的なファイルフォーマット¶

地名語辞書の作成者は、最小ファイルフォーマットに地名語の推奨項目や自由項目を適宜追加できます。追加した場合、先頭行にも項目名を追加する必要がある点に注意してください。

entry_id,body,suffix,ne_class,latitude,longitude,address,都道府県コード
"01","北海道","","都道府県","43.063102","141.352508","札幌市中央区北３条西6-1","01"
"02","青森","県/","都道府県","40.824637","140.740619","青森市長島1-1-1","02"
...