沖電気工業株式会社(社長:篠塚勝正)は、このたびネットユーザが辞書データを登録することにより翻訳精度を向上させることができるWebサイト型の機械翻訳システム「訳してねっと(R)」の開発に成功しました。本システムには、文書中の専門用語を自動的に抽出して辞書登録時間を半減する 新開発技術「専門用語抽出機能」を搭載しています。本日より、インターネット上に機械翻訳サイト「訳してねっと(http://yakushite.net/)」を開設し、無料一般公開を開始します。
Web上のさまざまな分野の情報に対して、機械翻訳システムが精度良く翻訳するためには、翻訳する分野に応じた辞書の増強、および恒常的な辞書の管理が不可欠です。従来のWeb上の機械翻訳サービスでは、翻訳サービス会社やユーザ個人が辞書の増強・管理を行なっているため、管理できる分野には限界があり、きめ細かい辞書作成サービスが行なえないのが現状でした。
本サイトでは、辞書の作成・管理を、翻訳する分野単位に行ない、その分野に精通したユーザが辞書データを登録することで、それぞれの分野において精度の高い辞書を作成することを可能にしました。また、統計的な手法を用いて、専門用語など辞書登録すべき単語や熟語などを文書中から自動的に検出する新技術を開発し、「専門用語抽出機能」として本サイトに搭載しました。ユーザが指定したWebページから専門用語など辞書登録すべき単語や熟語などを自動的に抽出し、訳語を入力するだけで簡単に辞書登録できるため、ユーザは効率的に辞書データ登録ができます。
事前に専門用語抽出機能を使った辞書登録の評価実験を行った結果、抽出された単語や熟語などの中で、辞書登録すると翻訳精度が向上するものが全体の約3割あり、登録すべき単語や熟語などのうち約5割をカバーしていることがわかりました。また、この専門用語抽出機能を使った場合には、使わなかった場合に比べて、同じ量の辞書データが半分の時間で登録できることもわかりました。
今後も弊社では、本サイトを翻訳ポータルサイトとして多くのユーザの方にご利用いただくことで使い勝手の向上に努め、言語知識獲得のノウハウを蓄積し、機械翻訳や情報抽出などの自然言語処理技術を使った商品開発を目指します。
【本サイトの主な特徴】
本サイトは、従来の検索ポータルサイトに見られるツリー型のディレクトリ構造を持っています。各ディレクトリは、さまざまな分野に対応しますが、この分野の単位(1つのディレクトリ)をコミュニティと呼びます。ユーザは、コミュニティを自由に作成することができ、コミュニティ単位で辞書を作成したり、翻訳結果を管理したりすることができます。各コミュニティの管理は、コミュニティに参加するユーザが主導して行ないます。ユーザはそのコミュニティの辞書の管理ができるコミュニティリーダやコミッタになることもできます。
【本サイトの主な機能】
- 翻訳機能
テキスト翻訳、Web翻訳、ファイル翻訳の3種類の機械翻訳結果を得ることができます。翻訳方式として、パターンベース方式を採用しているため、ユーザによるパターン作成が容易で、このため、各分野に特有の言い回しや表現方法に関する文法知識も、簡単に機械翻訳システムに登録することが可能です。例えば以下のように変数付きの辞書データを登録することもできます。([NP]の部分が変数を意味しています。)
download [NP] at once ⇔ [NP]を一括ダウンロードする
なお、本サイトで使用している翻訳エンジンは、100%Java(TM)で記述されており、部品として再利用可能で、改良、応用が容易です。
- 辞書管理機能
辞書データや対訳用例の追加、検索、修正、削除などをコミュニティ単位で行うことができます。登録した辞書データはコミュニティリーダなどが承認してから翻訳に反映されるので、間違ったデータの登録により翻訳品質が悪くなるようなことはありません。また、承認されていない辞書も使って翻訳するモードが用意されているので、登録した語が正しく訳に反映されているかその場で確認することもできます。
- コミュニティ機能
本サイトはディレクトリ型のコミュニティにより構成され、各コミュニティがひとつの専門分野に対応しています。コミュニティ内で翻訳機能や辞書管理機能を利用するだけで、コミュニティ単位での辞書作成や、そのコミュニティの辞書を使った機械翻訳が可能です。その他、コミュニティ機能を支える便利なツールとして、掲示板、翻訳機能付リンク集(各コミュニティに関連するURLおよびその翻訳結果へのリンク作成機能)がコミュニティごとに用意されています。 また、ディレクトリのトップには一般用語コミュニティがあり、このコミュニティには、専門用語ではなく一般に使われる用語を登録することができます。一般用語コミュニティで登録されたデータはすべての翻訳で使用されます。
「訳してねっと」サイト画面イメージ
- 訳してねっとは沖電気工業の登録商標です。
- JavaおよびすべてのJava関連の商標およびロゴは、米国およびその他の国における米国Sun Microsystems, Inc.の商標または登録商標です。
- 本研究は独立行政法人情報通信研究機構平成14年度基盤技術研究促進制度に係る研究開発課題「多言語標準文書処理システムの研究開発」の一環として行われています。
- その他、記載されている会社名、製品名は一般に各社の商標または登録商標です。
本件に関する報道機関からのお問合せ先
広報部 電話:03-3580-8950
本件に関するお客様からのお問合せ先
研究開発本部 ユビキタスシステムラボラトリ
Email:rdc-info@oki.com