GeoNLP - テキストを自動的に地図化する地名情報処理ソフトウェア
デモ
概要
GeoNLPプロジェクトは、オープンな地名情報処理のためのソフトウェア、データ、サービスを研究開発するプロジェクトです。本サイトはGeoNLPソフトウェアを中心に情報を提供します。
GeoNLPソフトウェアは、2021年7月にリリースしたVersion 2.0で大幅な変更を行い、PythonモジュールのPyGeonLPおよびPyGeoNLP WebAPIに生まれ変わりました。2022年2月にはVersion 2.1をリリースし、機械学習などの手法を導入しやすくなるよう、内部構造を大きく変更しました。
なお最新情報は以下をご覧下さい。
インストール
GeoNLPドキュメントの中のPyGeoNLPインストール手順をご覧下さい。またGitHubにも基本的な情報をまとめています。
コンポーネント
GeoNLPプロジェクトでは、以下の3つのコンポーネントの開発を進めます。
GeoNLPソフトウェア
テキストから地名を自動的に抽出し曖昧性を解消します。その際にはGeoNLP形式の地名語辞書(GeoNLPデータ)を利用します。
またGeoNLPソフトウェアは、日本の住所ジオコーダーjageocoderと連携することで、住所も自動的に抽出することが可能となります。
GeoNLPデータ
GeoNLPソフトウェアやその他の地名情報処理が活用できるよう、地名語辞書を構築し、地名に識別子を付与して共有し、検索する機能などを提供します。
GeoNLPサービス
GeoNLPソフトウェアの機能の一部を、インストールなしに利用可能とします。
このように3つのコンポーネントと外部サービスとを連携させることで、GeoNLPを「地名情報のハブ」として成長させることを目指します。
目標
ニュースやブログ、ツイートなどの自然言語テキストを地図上にマッピングする処理には大きなニーズがあります。もしこの処理が使えれば、テキストを空間的な文脈で理解することが容易になるからです。特に緊急情報メディアにおいては、多数の情報源から流入する情報を自動的にマッピングする処理が、迅速な対応の鍵を握る技術となります。
通常の自然言語テキストは人間が読むことを前提としているため、場所に関する機械可読なメタデータは付与されていないという問題があります。そこで自然言語テキストから場所に関するメタデータを自動抽出するには、自然言語テキストのどの部分が地名で(固有表現認識)、その地名はどこの場所を指すのか(曖昧性解消)といった処理が必要となります。そこで本研究は、地理情報処理(GIS)と自然言語処理(NLP)を組み合わせ、GISとNLPの境界領域に存在する「地名」を軸とした地名情報処理システムの構築を目指します。
GeoNLPプロジェクトは「オープン」であることを重視します。オープンソースとオープンデータに基づき、今後の改良に対しても開かれたシステムを目指します。アルゴリズムの面でもデータの面でも、地名情報処理という広大な分野を持続的に切り開いて行くには、多くの人々の協力が必要になるからです。地名情報システムの持続的な成長を支えるエコシステムを確立するため、Linked Open Dataや、参加型システム等と連携した地理的固有名辞書の整備や、ウェブフレームワークでも利用可能なライブラリ開発などの課題にも取り組みます。自前主義に陥りがちな地名情報処理の世界に、みんなの力を共有できるプラットフォームを生み出すことが目標です。
受賞
- Linked Open Data チャレンジ Japan 2013, 基盤技術部門 最優秀賞, LODチャレンジ実行委員会, 2014-03-07
- Geoアクティビティフェスタ 奨励賞, 国土交通省(国土地理院、国土政策局), 2013-11-16
支援
GeoNLPプロジェクトは、以下から支援を受けています。
また過去には、以下からも支援を受けました。
- JSTさきがけ「知の創生と情報社会」
- 国立情報学研究所共同研究費
- 地球環境情報統融合プログラム