辞書制作の TIPS¶
prefix, body, suffix の決め方¶
省略されるパターンから prefix, body, suffix に分ける¶
地名語は頻繁に省略されます。たとえば「国立情報学研究所」は「大学共同利用機関法人国立情報学研究所」「情報学研究所」「情報学研」「国立情報学研」のように表記されることがあります。
このような省略表記に対応するため、 GeoNLP では一つの地名語の表記を prefix, body, suffix の3つのフィールドの組み合わせで表現します。
prefix |
body |
suffix |
---|---|---|
国立 |
情報学 |
研究所 |
大学共同利用機関法人国立 |
研 |
|
(省略) |
どの表記でも必ず含まれる部分を body とします。body より前で変化する部分を prefix、 body より後ろで変化する部分を suffix とします(body は一つしか書けません)。「国立情報学研究所」の場合、上の表のようになります。
prefix のいずれか一つ、 body、 suffix のいずれか一つを組み合わせた文字列が、この地名語の表記とみなされます。この例の場合、「国立情報学研究所」「国立情報学研」「大学共同利用機関法人国立情報学研究所」「大学共同利用機関法人国立情報学研」「情報学研究所」「情報学研」の6通りになります。 prefix には「(省略)」が含まれているので prefix が空のパターンがありますが、 suffix は必ず「研究所」か「研」のどちらかが含まれている点に注意してください。
prefix, body, suffix を地名辞書に書く¶
この組み合わせを持つ地名語を辞書に登録する場合、次のように書きます。
..., |
prefix, |
body, |
suffix, |
... |
---|---|---|---|---|
..., |
国立/大学共同利用機関法人国立/, |
情報学, |
研究所/研, |
... |
prefix の「(省略)」を表現するため、prefix の最後は '/' で終えます。suffix には「(省略)」がありませんので、最後は '研' になります。
prefix, suffix の中の順番¶
prefix や suffix が複数存在する場合、最初の一つを組み合わせた表記が、その地名語の「代表的な」表記として、 API の結果などに出力されます。
上記の例では、 prefix の最初の「国立」と suffix の最初の「研究所」を選んだ「国立情報学研究所」が、この地名語の代表表記として利用されます。もし prefix を「/国立/大学共同利用機関法人国立」とすると、prefix を省略した「情報学研究所」が代表表記になります。
2番目以降には特に意味はありませんので、prefix は「国立/大学共同利用機関法人国立/」ではなく「国立//大学共同利用機関法人国立」と書いても同じ意味になります。ただし、prefix_kana、 suffix_kana に読みを登録している場合、prefix、suffixの順番に合わせてください。