地名解析辞書ファイルフォーマット

ここではCSV形式の地名解析辞書ファイルのフォーマットについて説明します。

CSVファイルの基本フォーマット

全般的な規則

  • 地名語辞書のCSVファイルは RFC4180 に 準拠します(Excel などの表計算ソフトで「CSV形式」として保存される ファイルは、この規約に従っています)

  • 地名語1エントリを1行、各フィールドをカンマで区切ってカラムに記述します

  • 複数の値が許可されているフィールドに値を記述する場合、 半角のスラッシュ記号 / で区切って1カラム内に列挙します

  • 文字エンコーディングはUTF-8とします

  • 改行コードはCR+LFとします(Windowsの場合は特に問題ありませんが、 MacOSやUNIXの場合には注意してください)

先頭行に関する規則

  • 先頭行には地名語のフィールド名を記述します

  • フィールド名は原則として 地名語のデータ項目一覧 から選択します

  • 辞書固有の項目の場合は任意の項目名をつけて構いません

  • 項目の順序は問いません

  • 任意につけた項目名にはマルチバイト文字(日本語など)も利用できます

先頭行の例

entry_id,geonlp_id,body,prefix,suffix,ne_class,latitude,longitude,address,補足

固有名クラスに関する規則

固有名クラス (ne_class) は クラス一覧 から選択してください。 このリストでは不十分な場合には、固有名クラスの後ろに半角の スラッシュ記号「/」を付け、独自拡張クラスを定義することができます。

たとえば「井戸」を示すクラスを定義したいという場合、 井戸は水道と関連が深いと考えて固有名クラス「基盤施設」を拡張し、 「基盤施設/井戸」を使うことができます。

ただし無制限に拡張クラスが増えてしまうと、固有名クラスで検索するのが 難しくなるので、できる限り一覧に示されている拡張クラスの例を 利用してください。

現在のクラス一覧も固定したものではなく、利用状況に応じて改善していきます。

最小ファイルフォーマット

最も単純なCSV形式地名語辞書ファイルは、地名語のRequired項目のうち、 辞書ID以外の6カラムだけを含むものです。

最小CSVファイルの例

entry_id,body,ne_class,latitude,longitude

このうちentry_idとbody以外は空欄でも構いません。 entry_id はファイル内での識別子として利用するため、 値が重複しないようにしてください。

entry_id,body,ne_class,latitude,longitude
"01","北海道","","",""
"02","青森県","","",""
...

これだけでは単に地名のリストになってしまうので、 固有名クラスや経緯度はできる限り空欄ではなく、適切な値を 記載してください。

entry_id,body,ne_class,latitude,longitude
"01","北海道","都道府県","43.063102","141.352508"
"02","青森県","都道府県","40.824637","140.740619"
...

標準的なファイルフォーマット

地名語辞書の作成者は、最小ファイルフォーマットに地名語の推奨項目や 自由項目を適宜追加できます。追加した場合、先頭行にも項目名を 追加する必要がある点に注意してください。

entry_id,body,suffix,ne_class,latitude,longitude,address,都道府県コード
"01","北海道","","都道府県","43.063102","141.352508","札幌市中央区北3条西6-1","01"
"02","青森","県/","都道府県","40.824637","140.740619","青森市長島1-1-1","02"
...