GeoNLP - オープンな地名情報処理基盤

GeoNLPは地名情報処理に必要なデータ、ソフトウェア、サービスをオープンに構築するプロジェクトです。自前主義に陥りがちな地名情報処理の世界に、みんなの力を共有できるプラットフォームを生み出すことが目標です。

GeoNLPプロジェクトとは?

ニュースやブログ、ツイートなどの自然言語文を地図上にマッピングする処理には大きなニーズがある。この処理によって、文章を空間的な文脈で理解することが容易になるからである。特に緊急情報メディアにおいては、多数の情報源から流入する情報を自動的にマッピングする処理は、迅速な対応の鍵を握る技術として価値が高い。

通常の自然言語文は人間が読むことを前提としているため、場所に関する機械可読なメタデータは付与されていないことが多い。そこで自然言語文から場所に関するメタデータを自動抽出しようと考えると、自然言語文のどの部分が地名で(タギング)、その地名はどこの場所を指すのか(曖昧性解消)などの困難な処理が必要となる。そこで本研究では、地理情報処理(GIS)と自然言語処理(NLP)を組み合わせ、その境界領域に存在する「地名」を対象とした自然言語文のジオタギングシステムを構築する。

GeoNLPの特徴は「オープン」であること、つまりオープンソースとオープンデータに基づき、今後の改良に対して開かれたシステムを目指す点である。この問題はアルゴリズムの面でもデータの面でも、今後も持続的に改良していく必要があるが、クローズドなシステムではそうした体制を整えることが難しい。そこでシステムの持続的な成長を支えるエコシステムを確立するため、Linked Open Dataや、参加型システム等と連携した地理的固有名辞書の整備や、ウェブフレームワークでも利用可能なライブラリ開発などの課題にも取り組んでいく。

GeoNLPプロジェクトの構成

GeoNLPプロジェクトは、以下の3つのコンポーネントから構成されるものである。

GeoNLPソフトウェア
オープンソースソフトウェアとして配布し、テキストから地名を抽出・解決する機能を持つ。
開発者向けページ(GeoNLPソフトウェアの配布)
GeoNLPデータ
ウェブサイトとして公開し、地名語辞書をアップロード・ダウンロードしつつ共有する機能を持つ。
GeoNLP地名語辞書共有
GeoNLP地名語辞書のライセンス
GeoNLPサービス
ウェブAPIとして公開し、GeoNLPソフトウェアの機能の一部をインストールなしに利用可能とする。
DIAS GeoNLP地名ウェブサービス
GeoLOD (Geographic Linked Open Data)

こうした3つのコンポーネントが連携し、他のサービスとも連携できるようにすることで、「地名情報のハブ」となることを目指しています。

メンバー

総括
北本 朝展(国立情報学研究所)
GeoNLP Software開発
相良 毅(株式会社情報試作室
ウェブシステム構築
トライアックス株式会社
協力
東京大学空間情報科学研究センター(CSIS)

受賞

  • Geoアクティビティフェスタ 奨励賞, 国土交通省(国土地理院、国土政策局), 2013-11-16

支援

  • JSTさきがけ「知の創生と情報社会」
  • 国立情報学研究所共同研究費
  • 地球環境情報統融合プログラム

ニュース