2008年7月24日
自分の声を再現する音声合成ソフトウェア「Polluxstar®」の提供を開始
あの声でなければならない、そんな思いに応えます
OKIは、口調や抑揚などの特徴も含め肉声に近い音声で文章を読み上げることのできる、自分の声ソフトウェア「Polluxstar(ポルックスター)」の提供を、本日より開始します。パソコンなどで「Polluxstar」を利用することにより、無個性で機械的な合成音ではなく、その人ならではの雰囲気や個性を持った「自分の声」によるコミュニケーションが実現できます。
OKIは、ユビキタスサービスにあふれた「e社会®(注1)」の実現に貢献することを目指しています。そのためには、あらゆる人に「欲しい情報を望む形で」提供できることが重要であり、さらに単なる情報伝達手段だけではなく、感情や共感を伝える豊かなコミュニケーション環境までも提供していく必要があります。
OKIは長年にわたり音声コミュニケーションを支える技術の研究・開発に取り組み、VoIP(注2)やCTI(注3)の市場においては高いシェアを獲得し、実績をあげてきました。テキストデータを音声データに変換する音声合成技術(TTS:Text-To-Speech)の分野においても、従来の技術をさらに発展させ、聞き取り易さだけではなく、声の本人性も含めた表現を追求して、開発を進めてきました。
音声は最も基本的なコミュニケーション手段の一つであり、単に言葉の意味を伝えるだけでなく、「その人であること」(本人性)を伝える重要な役割を持っています。しかし、コンピュータなどの機械上で、あらかじめ決められた文章だけでなく日常生活で使われる様々な言葉を自然な発話として再現するには、正確に発声された大量の音声データを収集するなど、音声データベースを構築するための多大な時間と労力が必要でした。そこでOKIは、一般の方が発声する必ずしも正確でない音声データを、無理のない量収録した場合でも、「自分の声」が再現できることを目指して研究開発を進めてきました。その結果、効率的に安定した音声データベースを構築し、「自分の声」を再現する技術の実用化に成功しました。
「自分の声」の再現が実生活においてどの程度の価値を生むかを検証する過程では、大阪芸術大学で情報工学の教鞭を執られている牧 泉 教授にご協力いただきました。OKIは、病気で声帯を摘出されることになった牧教授の音声データを手術前に収録し、自分の声ソフトウェア「Polluxstar」に組み込んで提供しました。牧教授は、2008年4月より、本ソフトウェア上の「自分の声」を使って大学での講義を再開し、この7月には2008年度前期の講義をすべてを完遂されました。また、実生活においても本ソフトウェアを積極的に活用していただき、その有用性の検証と実用化に向けた課題の抽出に協力していただきました。その結果、「Polluxstar」は一般の方の日常生活でも有効に活用できるレベルであることが確認でき、また本ソフトウェアの一般の方への提供に先立ち、商品としての完成度を高めることもできました。
OKIは、病気などにより、声を失われる方々に対して、本人の声の代わりとして、本人や家族の生活を支援するために、このたび「Polluxstar」の販売を開始することとしました。弊社では、これからも個人の特性を活かした声が必要となるシーンを見極め、さらに様々な分野に本ソフトウェアの活用範囲を広げていくため、音声コミュニケーションをより豊かなものにする音声合成技術の開発を進めていきます。
Polluxstarの概要
- ソフトウェア仕様
入力データ:漢字かな混じりテキスト
出力データ:16kHz 16ビット リニアPCM モノラル
合成声質:特定1話者(収録音声) - ソフトウェア動作環境
OS: Windows® XP、Windows Vista®
CPU:Intel® Core™2Duo プロセッサー 2GHz以上(推奨)
メモリ:空きメモリ 512MB以上(推奨)
HDD:空き容量 1GB以上 - 音声収録
収録量:合計で約60分に相当する長さの音声データ
収録内容:OKI標準原稿、お客様カスタム原稿 - 標準価格
個人使用向けPC版:100万円(税別)
- 1話者分の音声データベースとその音声を再現するためのソフトウェアを提供します。ハードウェア(PC)は含まれません。
- 音声収録、音声データベースの作成作業費用も含みます。ただし、音声収録場所の確保や移動にかかる経費は別途発生します。
- 企業などでのビジネス用途については、別途ご相談に応じます。
主な特長
- リーズナブルなコストで自分の声を再現できる音声データベースを作成
本人の口調・雰囲気をよく再現するために必要十分な音声を、効率よく収集し、データベース化します。音声合成に用いているコーパスベースTTS技術(注4) は、国際電気通信基礎技術研究所(ATR)が開発した大規模コーパス向けの音声合成技術(注5)に、OKIが独自で開発した小規模コーパス向けデータベース化技術を組合せたものです。高い肉声感を保ちつつも、リーズナブルなコストで自分の声ソフトウェア「Polluxstar」の提供を可能にしました。音声データベースの構築に必要な期間は、音声収録を含めて約1ヶ月です。
- 日常生活で使われる言葉を幅広くサポート
日常生活で使われる言葉や言い回しは、人によって異なります。あらかじめ用意された発声原稿に、ユーザ固有のカスタム原稿を加えることで、その人特有の言い回しの雰囲気を高めることができます。また、決まり文句や、親しい方への呼びかけなど、最もその人らしさが表れる特定のフレーズの音声を、事前に登録しておくことができます。入力された文字列から登録されたフレーズを認識すると、その音声をそのまま出力します。これらの工夫により、合成音との音質的なギャップなしに、本人の個性を伝える自然で微妙なニュアンスを再現することができます。
- 日常生活での利便性を考慮した実用的なユーザインタフェース
多くの実証実験などで得られたノウハウに基づき、日常生活で音声合成を身近で実用的に利用できるユーザインタフェースを実現しました。チャットソフトの要領でリアルタイムにキーボードから文章を入力する機能に加え、よく使う言い回しや事前に決まっている内容の文章はあらかじめ登録しておけば、テキストフィーダによってワンクリックで音声出力することができます。一対一の対話や、多人数を前にしたスピーチなど、異なる利用状況にも対応可能です。
Polluxstar名前の由来
「Polluxstar(ポルックスター)」は、ふたご座の2つの星のうちの弟の星 Pollux(ポルックス)にちなんで名づけられました。あなたの声を大切にしたい、そして仲のよい双子のようにあなたの代わりに話しかけてくれるそんなソフトを作りたい、という思いが込められています。
用語解説
- 注1:e社会
OKIの提案する、グローバルに張り巡らされたネットワークを基盤として、時間と空間の制約、国・地域や文化の違いを超え、あらゆる社会活動が「個」を中心に公平で安全、確実に行われる社会。
- 注2:VoIP(Voice over Internet Protocol)
音声をパケット化してIP網で伝送する技術。
- 注3:CTI(Computer Telephony Integration)
コンピュータと電話を統合し、業務効率化や顧客満足度を向上させる技術総称。
- 注4:コーパスベースTTS 技術(TTS:Text-To-Speech)
あらかじめ収録しておいた話し手の音声の中から、もっともふさわしい波形の組み合わせを音素単位で選択し、直接接続する音声合成の技法。
- 注5:大規模コーパス向けの音声合成技術
国際電気通信基礎技術研究所(ATR)が開発した、非常に高い肉声感を得られる音声合成の手法(開発コード名:XIMERA)。
- 沖電気工業株式会社は、グローバルに認知される成長企業を目指し、通称をOKIとします。
- e社会、Polluxstarは、沖電気工業株式会社の登録商標です。
- Windows、Vistaは、米国Microsoft Corporationの米国、日本およびその他の国における登録商標または商標です。
- Intel、Intel Coreは、アメリカ合衆国およびその他の国における Intel Corporation の商標または登録商標です。
- その他、記載されている会社名、商品名は、各社の商標または登録商標です。
- 本件に関する報道機関からのお問い合わせ先
- 広報部
電話:03-3580-8950 - 本件に関するお客様からのお問い合わせ先
- ユビキタスサービスプラットフォームカンパニー コンサルティング部
電話:048-431-5442
- ※各リリースの記載内容は発表日現在のものです。その後予告なしに変更される場合がありますので、あらかじめご了承ください。
