下畑さより
山本秀樹
テキストから頻繁に出現する語句や言い回し「定型表現」を自動的に抽出する方式について述べている。この方式は,隣接文字のエントロピを基準に専門用語や固有名詞を抽出する。さらに,共起頻度の高い文字列どうしを語順を制約に抽出することにより,イディオムや定型文などの可変部を含む表現も抽出する。この方式は,文字の統計情報だけを用いるので,未知語の有無,言語の別を問わず,「定型表現」の抽出が可能である。コンピュータマニュアルを使った実験においても,分野特有の定型表現が抽出され,本方式の有効性が実証された。
Copyright (c) 1998 Oki Electric Industry Co., Ltd.
www-admin@www.oki.co.jp