GeoNLPの用語

ここではGeoNLP内で共通に利用する用語を定義します。

地名語

GeoNLPでは、地名にID、経緯度、クラスなどの属性を付与し、コレクションと してまとめた上で、データベース上で管理します。 また、固有名詞の一種としての「地名」と区別するため、GeoNLPでは データベース中の地名エントリを「地名語」と呼びます。 つまり「地名」がデータベースに登録されれば「地名語」になります。

[地名語の例]

  • ロンドン, 奥羽地方, 北アフリカ大陸, 富士山, 西表島, 利根川, サロマ湖, 日本海, ベンガル湾, ハチ公口, ホワイトハウス, 東京ドーム, 新宿駅西口交番, 東京国立博物館, 東京駅, 東海道本線, スエズ運河, 清水トンネル, 瀬戸大橋

GeoNLPは文章を場所に関連づけることを目的としているので、位置と名称を 持っていれば何でも地名語として登録することができます。 「東京国立博物館」のような組織名や「瀬戸大橋」といった施設名は、 厳密には地名とは別に分類すべきかもしれませんが、 GeoNLP では その語が文章から抽出できてその位置にマッピングされれば便利である限り、 何でも地名語として扱います。

また、地名語には、それが山であるのか行政地域であるのかといった分類を 表す「固有名クラス」を付与する必要があります。 詳しくは 固有名クラスとは を参照してください。

geolod_id

地名語 の GeoNLP 用の識別子です。

GeoLOD と地名語を共通化するため、 geolod_id という名前を利用していますが、旧バージョンの geonlp_id と 同じものです。

複数の地名語が意味的に同じ地物を指していても、登録されている 地名解析辞書が異なっていれば geolod_id も異なります。

地名解析辞書

GeoNLPのユーザが何らかのポリシーによって収集した、GeoNLP用の地名語の コレクションを「地名解析辞書」と呼びます。GeoNLPの地名語には 自然言語解析のための情報が含まれているので、 一般的な「地名辞書」(Gazetteer)と区別するためにこの名称を 利用しています。 GeoNLPの関連文書では、特に混乱を招く恐れがない限り、地名解析辞書を 単に「辞書」と表記することがあります。

[辞書の例]

  • 日本の自治体

  • 世界の大都市

  • 標高500m以上の山

  • 東海道線の駅

  • 関東地方のガソリンスタンド

表記と座標、表している対象が完全に一致する地名語であっても、 別の辞書に登録されている場合には異なる地名語として扱われます。 たとえば「歴史的地名」辞書に含まれる「東京都」と、「日本の都道府県」 辞書に含まれる「東京都」は別の地名語として扱われ、異なるIDを持ちます。

住所

GeoNLPでは、自然言語文章中で場所を特定するために利用される 郵便住所(postal address)、あるいは行政管理のために利用される 行政住所(political address)等の表記を「住所」と呼びます。 住所には複数の地名語が含まれるため、他の地名語とは区別して処理します。 たとえば「千代田区一ツ橋2-1-2」という住所には、 「千代田区」「一ツ橋」などの地名語が含まれているので、 これらの地名語を内包する一つのオブジェクトとして扱います。

ただし今のところ日本語の住所しか正しく処理できません。

[住所の例]

  • 千代田区一ツ橋2-1-2

  • ロンドン市ベーカー街221B

  • ペンシルベニア通り1600番地