沖電気研究開発(No.177)

隣接文字のエントロピに基づく定型表現の自動抽出

 下畑さより
 山本秀樹

テキストから頻繁に出現する語句や言い回し「定型表現」を自動的に抽出する方式について述べている。この方式は,隣接文字のエントロピを基準に専門用語や固有名詞を抽出する。さらに,共起頻度の高い文字列どうしを語順を制約に抽出することにより,イディオムや定型文などの可変部を含む表現も抽出する。この方式は,文字の統計情報だけを用いるので,未知語の有無,言語の別を問わず,「定型表現」の抽出が可能である。コンピュータマニュアルを使った実験においても,分野特有の定型表現が抽出され,本方式の有効性が実証された。



戻る

Copyright (c) 1998 Oki Electric Industry Co., Ltd.

www-admin@www.oki.co.jp