バックナンバー > 本文
2005年7月21日
1億文字、Web4万ページ分を1日で処理し、最新用語を継続的に獲得
独立行政法人情報通信研究機構(理事長:長尾真、以下、NICT)と沖電気工業株式会社(社長:篠塚勝正、以下、沖電気)は、このたびWebページから新語を獲得して属性を判別する技術を共同開発しました。インターネット検索エンジン等に代表される情報検索・抽出システムの精度向上に効果を発揮します。今後、本技術のユーザ向けインターネットサービスへの導入を推進していく予定です。
インターネット検索エンジンの普及により情報検索や情報抽出(注1)の技術は身近なものとなりました。検索や抽出を行うに際しては対象となる文書中のテキストの解析が必要になりますが、辞書に登録されていない新語が含まれると解析がうまくいかないことが多くあります。インターネット上では日々新語が生み出されており、これが検索や抽出の精度を下げる原因となっています。そのため、新聞記事などを用いて新しい用語を獲得する研究が行われてきています。ところが、新聞とは違ってインターネットのWebページは内容・用語・書式などが様々であり、新語の自動獲得は容易ではありませんでした。
また、新しく獲得された用語を、実際のシステム、特に情報抽出のシステムで利用するためには、その用語が人名や組織名なのか専門分野に関する語なのかといった属性を判別することが必要となります。これに関しても自動で判別することは困難でした。
今回開発した技術は、収集した大量のWebページに対して形態素解析(注2)を行い、文中の形態素列の頻度と、その前後の形態素の異なり数とを指標とした関数を用いて用語を獲得します。この技術を用いることにより、名詞だけから構成される用語だけでなく、助詞などを含む用語をも獲得することができます。さらに固有表現抽出(注3)や既存辞書とのマッチングを行って用語を構成する形態素に素性を割り当て、その情報を利用して用語全体の属性を判別します。形態素に素性を割り当てることができない場合にも、その形態素の用語全体に対する影響を考慮することにより属性を推定することができます。また、実システムへの導入を考慮して処理を高速化しています。テキストで200メガバイトの収集済みのWebページ(約1億文字、2年分の新聞記事に相当)を平均1日で処理し、用語の獲得を行うことができます。従来は容易に追加することができなかった最新用語を、高速でWebページから獲得・判別することが可能となります。それによりインターネットユーザーが新語をリアルタイムで検索できるようになります。例えば、大学や企業のWebページから獲得した技術用語を継続的にシステムに反映することにより、ユーザが探している最新技術の名称を常に正しく検索・提示することができるため、最新用語による情報収集、および技術探索への効果が期待されます。
本技術は、NICTけいはんな情報通信オープンラボにおける沖電気とNICTの共同研究の成果によるものです。今後もNICTと沖電気は当技術の向上を目指して共同研究を継続します。尚、沖電気は、メールで受け取る情報収集支援サービス「MAILPIA(R)」(注4)、および産学連携支援ツール「Bluesilk(R)」(注5)への本技術の導入を進める予定です。
7月22日(金)、23日(土)に沖縄県宜野湾市(健康文化村 カルチャーリゾート フェストーネ)で開催される情報処理学会自然言語処理研究会(電子情報通信学会言語理解とコミュニケーション研究会と合同開催)にて本件に関する技術報告をいたします。尚詳細は第168回自然言語処理研究会のホームページ(http://www.jaist.ac.jp/nlp/SIGNL/NL168program.html)をご覧ください。
各リリースの記載内容は発表日現在のものです。その後予告なしに変更される場合がありますので、あらかじめご了承ください。