GeoNLPプロジェクト

GeoNLP プロジェクトは、自然言語文に含まれる地名や住所といった場所記述を抽出し、その文がどこに関する記述であるかというメタデータを付与するジオタギング(geo-tagging)システムの構築を目指した研究プロジェクトです。

GeoNLP は地理情報科学(Geographic Information Science:GIS)と自然言語処理技術(Natural Language Processing)を組み合わせることにより、次のような処理を可能にします。

  • 文章中の地名に経緯度などの地理関連情報を埋め込む
  • 表記が同じ地名を周辺文脈によって識別する
  • 地名に固有の ID を振り、同じ地名を含む文章を ID で検索可能にする
  • 文に含まれる住所を認識して詳細な位置を特定する

これらの処理により、従来のGISでは扱うことができなかった、ウェブ上のニュースやブログといったテキストを、機械的に地図にすることができるようになります。

GeoNLP を利用するには、 JSON-RPC による公開 WebAPI サービスを利用するのが簡単です。より複雑な処理を行いたい、非公開文書を扱うためイントラネット内で利用したいといった場合には、オープンソースソフトウェアとして公開されているソースコードをダウンロードして、 Linux サーバ上にシステムを構築することもできます。

また、ジオタギングを行うシステムの持続的な成長のためには、それを支えるエコシステムを確立する必要があります。そのため、システムで利用可能な「地名解析辞書」を参加型で整備する 辞書サービス の開発と運営も行います。