GeoNLP

テキストを自動的に地図化する地名情報処理ソフトウェア

GeoNLP - テキストを自動的に地図化する地名情報処理ソフトウェア

GeoNLPプロジェクトは、オープンな地名情報処理のためのソフトウェア、データ、サービスを研究開発するプロジェクトです。本サイトはGeoNLPソフトウェアを中心に情報を提供します。

GeoNLPソフトウェアは、2021年7月にリリースしたバージョン2で大幅な変更を行い、PythonモジュールのPyGeonLPおよびPyGeoNLP WebAPIに生まれ変わりました。詳しくはGeoNLPソフトウェア変更履歴GeoNLPニュースなどをご覧下さい。

GeoNLPのインストール

GeoNLPドキュメントの中のPyGeoNLPインストール手順をご覧下さい。またGitHubにも基本的な情報をまとめています。

またGeoNLPをお試ししたい方は、GeoNLPのデモをお使いください。

GeoNLPプロジェクトとは?

ニュースやブログ、ツイートなどの自然言語テキストを地図上にマッピングする処理には大きなニーズがあります。もしこの処理が使えれば、テキストを空間的な文脈で理解することが容易になるからです。特に緊急情報メディアにおいては、多数の情報源から流入する情報を自動的にマッピングする処理が、迅速な対応の鍵を握る技術となります。

通常の自然言語テキストは人間が読むことを前提としているため、場所に関する機械可読なメタデータは付与されていないという問題があります。そこで自然言語テキストから場所に関するメタデータを自動抽出するには、自然言語テキストのどの部分が地名で(固有表現認識)、その地名はどこの場所を指すのか(曖昧性解消)といった処理が必要となります。そこで本研究は、地理情報処理(GIS)と自然言語処理(NLP)を組み合わせ、GISとNLPの境界領域に存在する「地名」を軸とした地名情報処理システムの構築を目指します。

GeoNLPプロジェクトは「オープン」であることを重視します。オープンソースとオープンデータに基づき、今後の改良に対しても開かれたシステムを目指します。アルゴリズムの面でもデータの面でも、地名情報処理という広大な分野を持続的に切り開いて行くには、多くの人々の協力が必要になるからです。地名情報システムの持続的な成長を支えるエコシステムを確立するため、Linked Open Dataや、参加型システム等と連携した地理的固有名辞書の整備や、ウェブフレームワークでも利用可能なライブラリ開発などの課題にも取り組みます。自前主義に陥りがちな地名情報処理の世界に、みんなの力を共有できるプラットフォームを生み出すことが目標です。

GeoNLPプロジェクトの構成

GeoNLPプロジェクトでは、以下の3つのコンポーネントの開発を進めます。

GeoNLPソフトウェア
テキストから地名を自動的に抽出し曖昧性を解消します。その際にはGeoNLP形式の地名辞書(GeoNLPデータ)を利用します。
PyGeoNLP
開発者向けドキュメント
GeoNLPデータ
GeoNLPソフトウェアやその他の地名情報処理が活用できるよう、地名辞書を構築し、地名に識別子を付与して共有し、検索する機能などを提供します。
GeoNLP地名辞書
GeoLOD
Geoshape
GeoNLPサービス
GeoNLPソフトウェアの機能の一部を、インストールなしに利用可能とします。
PyGeoNLP WebAPI
GeoNLPのデモ

このように3つのコンポーネントと外部サービスとを連携させることで、GeoNLPを「地名情報のハブ」として成長させることを目指します。

受賞

  • Linked Open Data チャレンジ Japan 2013, 基盤技術部門 最優秀賞, LODチャレンジ実行委員会, 2014-03-07
  • Geoアクティビティフェスタ 奨励賞, 国土交通省(国土地理院、国土政策局), 2013-11-16

支援

GeoNLPプロジェクトは、以下から支援を受けています。

また過去には、以下からも支援を受けました。