GeoNLPプロジェクト

GeoNLP プロジェクトは、自然言語文に含まれる地名や住所といった場所記述を抽出し、 その文がどこに関する記述であるかというメタデータを付与するジオタギング (geo-tagging) システムの構築を目指した研究プロジェクトです。

GeoNLP は地理情報科学(Geographic Information Science:GIS)と 自然言語処理技術(Natural Language Processing)を組み合わせることにより、 次のような処理を可能にします。

  • 文章中の地名に経緯度などの地理関連情報を埋め込む

  • 表記が同じ地名を周辺文脈によって識別する

  • 地名に固有の ID を振り、同じ地名を含む文章を ID で検索可能にする

  • 文に含まれる住所を認識して詳細な位置を特定する

これらの処理により、従来のGISでは扱うことができなかった、 ウェブ上のニュースやブログといったテキストを、機械的に地図にすることができるようになります。

GeoNLP を利用するには、オープンソースソフトウェアとして公開されている ソースコードをダウンロードして、 Linux サーバ上にシステムを構築します。

また、ジオタギングを行うシステムの持続的な成長のためには、 それを支えるエコシステムを確立する必要があります。 そのため、システムで利用可能な「地名解析辞書」を参加型で整備する 地名情報を集約する地名情報処理基盤GeoLOD の 整備と運営も行います。

関連文書一覧

地名解析辞書の作成、共有に関心があるユーザは 辞書製作者向け資料 を、 GeoNLP ソフトウェアを利用した地名解析アプリケーション開発に関心があるユーザは Pygeonlp リファレンス を参照してください。

これらのリファレンスでは、地名語や辞書の項目についての情報が必要になる場合があるので、 必要に応じて 用語・フォーマット も参照してください。