GeoNLP

テキストを自動的に地図化する地名情報処理ソフトウェア

GeoNLP - テキストを自動的に地図化する地名情報処理ソフトウェア

GeoNLPプロジェクトは、オープンな地名情報処理のためのソフトウェア、データ、サービスを研究開発するプロジェクトです。自前主義に陥りがちな地名情報処理の世界に、みんなの力を共有できるプラットフォームを生み出すことが目標です。

本サイトはGeoNLPソフトウェアの情報を提供します。 GeoNLPソフトウェアは現在、大規模なリニューアルを進めております。詳しくは GeoNLPニュース をご覧下さい。ご不便をおかけしますが、しばらくお待ちください。

GeoNLPプロジェクトとは?

ニュースやブログ、ツイートなどの自然言語テキストを地図上にマッピングする処理には大きなニーズがあります。もしこの処理が使えれば、テキストを空間的な文脈で理解することが容易になるからです。特に緊急情報メディアにおいては、多数の情報源から流入する情報を自動的にマッピングする処理が、迅速な対応の鍵を握る技術となります。

通常の自然言語テキストは人間が読むことを前提としているため、場所に関する機械可読なメタデータは付与されていないという問題があります。そこで自然言語テキストから場所に関するメタデータを自動抽出するには、自然言語テキストのどの部分が地名で(固有表現認識)、その地名はどこの場所を指すのか(曖昧性解消)といった処理が必要となります。そこで本研究は、地理情報処理(GIS)と自然言語処理(NLP)を組み合わせ、GISとNLPの境界領域に存在する「地名」を軸とした地名情報処理システムの構築を目指します。

GeoNLPプロジェクトは「オープン」であることを重視します。オープンソースとオープンデータに基づき、今後の改良に対しても開かれたシステムを目指します。アルゴリズムの面でもデータの面でも、地名情報処理という広大な分野を持続的に切り開いて行くには、多くの人々の協力が必要になるからです。地名情報システムの持続的な成長を支えるエコシステムを確立するため、Linked Open Dataや、参加型システム等と連携した地理的固有名辞書の整備や、ウェブフレームワークでも利用可能なライブラリ開発などの課題にも取り組みます。

GeoNLPプロジェクトの構成

GeoNLPプロジェクトでは、以下の3つのコンポーネントの開発を進めます。

GeoNLPソフトウェア
テキストから地名を自動的に抽出し曖昧性を解消します。その際にはGeoNLP形式の地名辞書(GeoNLPデータ)を利用します。
開発者向けページ(GeoNLPソフトウェアの配布)
GeoNLPデータ
GeoNLPソフトウェアやその他の地名情報処理が活用できるよう、地名辞書を構築し、地名に識別子を付与して共有し、検索する機能などを提供します。
GeoNLP地名辞書
GeoLOD
Geoshape
GeoNLPサービス
GeoNLPソフトウェアの機能の一部を、インストールなしに利用可能とします。
現在改修中

このように3つのコンポーネントと外部サービスとを連携させることで、GeoNLPを「地名情報のハブ」として成長させることを目指します。

受賞

  • Geoアクティビティフェスタ 奨励賞, 国土交通省(国土地理院、国土政策局), 2013-11-16

支援

GeoNLPプロジェクトはDIASの支援を受けています。また過去には以下のプロジェクトからも支援を受けました。

  • JSTさきがけ「知の創生と情報社会」
  • 国立情報学研究所共同研究費
  • 地球環境情報統融合プログラム