地名語のデータ構造

地名語 のデータ構造は、識別子、表記情報、関係情報、属性情報から構成されます。識別子は地名語を他の地名語と識別するために利用します。

表記情報は、その地名語が自然言語文章中でどのように表記されるか(もしくはどのように表記されている文字列を地名語として抽出すべきか)を管理します。

関係情報は、地名語に同綴地名語が存在する場合、前後関係からどの地名語が最も適切かを決定する(地名解決)処理で利用します。

属性情報は、地名語について有用なその他の情報を提供するために利用します。

識別子(Identifiers)

GeoLOD ID ( geolod_id )

地名語の GeoLOD サイト 内での識別子です。 サイトにログインし、CSV 形式の地名解析辞書をアップロードすると、 辞書内の地名語にサーバがランダムにユニークな「GeoLOD ID」を与えます。 これ以外の方法でも CSV ファイルに geolod_id フィールドを追加することは 可能なので、一意性は絶対ではありません。

エントリID (entry_id)

地名辞書の作成者が管理しやすいよう、その辞書内でユニークな任意の文字列を 定義したものです。 「エントリID」が空欄だったり辞書内で値が重複していると、 読み込み時にエラーになります。

辞書ID (dictionary_identifier)

この地名語が登録されている辞書の識別子です。 辞書メタデータの identifier に記載されている識別子のうち、 geonlp: から始まるものが採用されます。

表記情報(Notations)

表記情報は、地名語を自然言語文章から抽出する処理(地名抽出処理)で用いられる情報です。 地名語は、しばしば自然言語文章中に省略された形で現れます。 たとえば「渋谷で待ち合わせ」という文章の「渋谷」は「渋谷駅」の意味で あることが多いため、「渋谷駅は渋谷と表記されることがある」という情報を 与える必要があります。「東京都立新宿高等学校」が「都立新宿高」や 「新宿高校」のように先頭部分が省略されたり、先頭・後続部分が 変化することもあります。

そこで地名語には、省略・変化しない部分を「原型」として登録し、 省略・変化する可能性のある部分を「接頭辞」および「接尾辞」として登録します。

変化するパターンが複数存在する場合に対応するため、接頭辞・接尾辞は 複数登録できます。省略される可能性がある場合には空文字(「""」)を登録します。 「東京都立新宿高等学校」の場合、原形は「新宿」、接頭辞は 「東京都立」「都立」「""」の3種類、接尾辞は「高等学校」「高校」「高」の 3種類となります。

これらの組み合わせによる9通りの表記がこの地名語エントリとして認識されます。 読みについても同様に、原形部分の読みと接頭辞部分、接尾辞部分の読みを分割して登録します。

表記情報のうち、「原型」は空欄にすることはできません(登録時にエラーになります)。

原型 (body)

地名語の表記のうち変化しない部分

接頭辞 (prefix)

地名語の表記のうち、表記揺れがおこる先頭部分

接尾辞 (suffix)

地名語の表記のうち、表記揺れがおこる末尾部分

読み (kana)

読みの表記のうち変化しない部分

読み接頭辞 (prefix_kana)

読みの表記のうち、表記揺れがおこる先頭部分

読み接尾辞 (suffix_kana)

読みの表記のうち、表記揺れがおこる末尾部分

関係情報(Relations)

地名語には同綴語が多数存在することがあります。

たとえば「今日は東京で打ち合わせです。」という文の「東京」は、 広く「東京都」を意味する場合と「東京駅」を意味する場合が考えられます。 文章によっては、前後の文脈によって同綴語のうちどれが適切かを 決定することができる場合があります。たとえば「東京の天気は晴れ、 神奈川は曇りでしょう。」という文の「東京」は、 神奈川と比較されていることから「東京都」であると考えられます。 このように同綴語から最適な候補を決定する処理を「地名解決」と呼んでいます。

関係情報は、地名解決処理で利用する情報です。

上位語 (hypernym)

地名語と地名語の間に親子関係を定義することにより、 地名語の上下関係や兄弟関係を与え、地名解決の手がかりとして 利用できるようにします。 たとえば「東京都」と「神奈川県」は、「日本」という共通の上位語を持つため、 兄弟関係にあると考えることができます。

上位語は複数指定することができます。

固有名クラス (ne_class)

地名語が属する固有名としての 固有名クラス を定義します。 同じクラスの地名語は共起しやすいため、地名解決に利用できます。 固有名クラスは共通でなければ役に立たないため、 クラス一覧 から選択してください。

どうしてもユーザ独自の拡張が必要な場合には、 拡張クラス を参照してください。たとえば空港を民用と軍用に分けたい場合、 「航空施設/民用空港」、「航空施設/軍用空港」のように記述します。 ただし拡張クラスの濫用は他の辞書との一貫性を損ねますので、 必要以上に拡張クラスを利用しないでください。

ほとんどのケースでは、 その他の情報(Other Attributes) を用いることで、 独自拡張クラスを定義しなくても目的は達成できるはずです。 上記の例では、固有名クラスに推奨拡張クラスである「航空施設/空港」を利用し、 辞書の属性に「空港用途」を設け、「軍用」「民用」「共用」を記載すれば、 辞書ユーザにとって識別可能になります。

属性情報(Attributes)

地名語は地名のデータなので、地名に関する有用な情報を集積するために 利用することもできます。

地名コード (code)

地名語が何らかのデータベースに登録されている場合、 そのデータベースの種別(コード体系)とコード値を登録します。 たとえば「東京都」はJISX0401で"13"というコードが与えられているため、 JISX0401:13 というコードを持たせます。

地名語が複数のデータベースに登録されている場合、 コードも複数持つことができます。 たとえば「丘珠飛行場」は、国際航空運送協会IATAでは"OKD"、 国際民間航空機関ICAOでは"RJCO"というコードを持っているため、 "IATA:OKD"と"ICAO:RJCO"という二つのコードを持ちます(スラッシュ / で連結します)。 コードが同一の地名語は、geolod_id が異なっていても 実世界では同一の地物を指していると考えることができます。

代表点緯度, 代表点経度 (latitude, longitude)

地名語が指すおおよその位置を10進度数で表します。

住所 (address)

地名語が指す地物を経緯度ではなく住所で表した値です。

有効期間(開始)、有効期間(終了) (valid_from, valid_to)

行政地名などで地名の有効期間が決まっている場合、有効期間を定義することができます。 年のみ設定する場合は西暦4桁でyyyy形式(「2013」)、 年月のみの場合はyyyy-mm形式(「2013-05」)、 年月日の場合はyyyy-mm-dd形式(「2013-05-23」)で表記してください。 時分秒は指定できません。繰り返し発生するイベントも記述できません。

その他の情報(Other Attributes)

地名語に固有のその他の属性値は、上記以外の任意のフィールド名を追加できます。 飛行場の例では、「滑走路長」「飛行場種別」「所属国」といった情報を 追加してもかまいません。 これらの情報は「自由フィールド(free field)」として扱われ、 地名辞書には登録されますが、地名抽出処理にも地名解決処理にも影響しません。