地名解析辞書ファイルフォーマット¶
ここではCSV形式の地名解析辞書ファイルのフォーマットについて説明します。
CSVファイルの基本フォーマット¶
全般的な規則¶
地名語辞書のCSVファイルは RFC4180 に 準拠します(Excel などの表計算ソフトで「CSV形式」として保存される ファイルは、この規約に従っています)
地名語1エントリを1行、各フィールドをカンマで区切ってカラムに記述します
複数の値が許可されているフィールドに値を記述する場合、 半角のスラッシュ記号
/
で区切って1カラム内に列挙します文字エンコーディングはUTF-8とします
改行コードはCR+LFとします(Windowsの場合は特に問題ありませんが、 MacOSやUNIXの場合には注意してください)
先頭行に関する規則¶
先頭行には地名語のフィールド名を記述します
フィールド名は原則として 地名語のデータ項目一覧 から選択します
辞書固有の項目の場合は任意の項目名をつけて構いません
項目の順序は問いません
任意につけた項目名にはマルチバイト文字(日本語など)も利用できます
先頭行の例
entry_id,geonlp_id,body,prefix,suffix,ne_class,latitude,longitude,address,補足
固有名クラスに関する規則¶
固有名クラス (ne_class
) は クラス一覧 から選択してください。
このリストでは不十分な場合には、固有名クラスの後ろに半角の
スラッシュ記号「/」を付け、独自拡張クラスを定義することができます。
たとえば「井戸」を示すクラスを定義したいという場合、 井戸は水道と関連が深いと考えて固有名クラス「基盤施設」を拡張し、 「基盤施設/井戸」を使うことができます。
ただし無制限に拡張クラスが増えてしまうと、固有名クラスで検索するのが 難しくなるので、できる限り一覧に示されている拡張クラスの例を 利用してください。
現在のクラス一覧も固定したものではなく、利用状況に応じて改善していきます。
最小ファイルフォーマット¶
最も単純なCSV形式地名語辞書ファイルは、地名語のRequired項目のうち、 辞書ID以外の6カラムだけを含むものです。
最小CSVファイルの例
entry_id,body,ne_class,latitude,longitude
このうちentry_idとbody以外は空欄でも構いません。 entry_id はファイル内での識別子として利用するため、 値が重複しないようにしてください。
entry_id,body,ne_class,latitude,longitude
"01","北海道","","",""
"02","青森県","","",""
...
これだけでは単に地名のリストになってしまうので、 固有名クラスや経緯度はできる限り空欄ではなく、適切な値を 記載してください。
entry_id,body,ne_class,latitude,longitude
"01","北海道","都道府県","43.063102","141.352508"
"02","青森県","都道府県","40.824637","140.740619"
...
標準的なファイルフォーマット¶
地名語辞書の作成者は、最小ファイルフォーマットに地名語の推奨項目や 自由項目を適宜追加できます。追加した場合、先頭行にも項目名を 追加する必要がある点に注意してください。
entry_id,body,suffix,ne_class,latitude,longitude,address,都道府県コード
"01","北海道","","都道府県","43.063102","141.352508","札幌市中央区北3条西6-1","01"
"02","青森","県/","都道府県","40.824637","140.740619","青森市長島1-1-1","02"
...