辞書制作の TIPS

ここではより実践的な地名解析辞書を作成する際のヒントを紹介します。

省略可能な接頭辞・接尾辞を含む地名

地名語は頻繁に省略されます。たとえば「国立情報学研究所」は 「大学共同利用機関法人国立情報学研究所」「情報学研究所」 「情報学研」「国立情報学研」のように表記されることがあります。

このようないろいろな省略表記に対して、表記ごとに辞書に登録するのは 非効率ですし ID が異なるのも望ましくありません。

そこで GeoNLP では一つの地名語の表記を prefix, body, suffix の 3つ部分に分け、その組み合わせとして表現します。

地名語表記の分解

prefix

body

suffix

国立

情報学

研究所

大学共同利用機関法人国立

(省略)

どの表記でも必ず含まれる部分を body (原型) とします。 body より前で変化する部分を prefix (接頭辞)、 body より後ろで変化する部分を suffix (接尾辞) とします。 body は一つしか書けませんが、 prefix, suffix は / で区切って 複数指定することができます。

「国立情報学研究所」の場合、上の表のようになります。

prefix のいずれか一つ、 body、 suffix のいずれか一つを組み合わせた文字列が、 この地名語の表記とみなされます。この例の場合、 「国立情報学研究所」「国立情報学研」「大学共同利用機関法人国立情報学研究所」 「大学共同利用機関法人国立情報学研」「情報学研究所」「情報学研」 の6通りになります。

prefix には「(省略)」が含まれているので prefix が空のパターンがありますが、 suffix は必ず「研究所」か「研」のどちらかが含まれている点に注意してください。

地名解析辞書での表現

この組み合わせを持つ地名語を辞書に登録する場合、次のように書きます。

...,

prefix,

body,

suffix,

...

...,

国立/大学共同利用機関法人国立/,

情報学,

研究所/研,

...

prefix の「(省略)」を表現するため、prefix の最後は '/' で終えます。 suffix には「(省略)」がありませんので、最後は '研' になります。

prefix, suffix の順番

prefix や suffix が複数存在する場合、最初の一つを組み合わせた表記が、 その地名語の「代表的な」表記として API の結果などに出力されます。

上記の例では、 prefix の最初の「国立」と suffix の最初の「研究所」を 選択した「国立情報学研究所」がこの地名語の代表表記として利用されます。 もし prefix を「/国立/大学共同利用機関法人国立」とすると、prefix を省略した 「情報学研究所」が代表表記になります。

2番目以降には特に意味はありませんので、 prefix は「国立/大学共同利用機関法人国立/」ではなく 「国立//大学共同利用機関法人国立」と書いても同じ意味になります。 ただし、prefix_kana、 suffix_kana に読みを登録している場合は prefix、suffixの順番に合わせてください。