2020年3月26日
OKIは、話者自身の音声からリアルタイムに生成したマスキング音(注1)を用いて会話内容の漏洩を防止するスピーチプライバシー(注2)技術を開発しました。本技術により、銀行の相談ブース、オフィスの会議スペース、薬局の受付カウンターなど、さまざまなシーンで周囲を気にせず、快適に会話や相談ができる音環境を実現します。OKIは今後、相談ブースなどを設置している顧客と実証実験による実用化検討を行い、2021年度の商品化を目指します。
スピーチプライバシー技術を利用した相談ブースのイメージ
銀行などの相談ブースでは、高額な取引や重要な説明が行われ、個人情報(名前、住所、電話番号など)がやり取りされることが多くあります。近年、プライバシー保護への関心が高まり、こうした情報を他人に知られたくないという意識が強くなっています。しかし、パーテーションで区切られただけのブース、あるいは上部に吹き抜けや隙間があるブースでは、会話内容が周りに聞こえてしまうなどの課題があります。このような課題に対し、「音のマスキング効果(注3)」を利用して、事前に収録した環境音や音声などから会話の聴き取りを妨げるマスキング音を生成し、これを周囲の人に聞かせることで会話の漏洩を防止するスピーチプライバシー技術が開発されています。
今回開発したOKIのスピーチプライバシー技術は、話している話者の音声から、その場でリアルタイムにマスキング音を生成することが特徴です。話者自身の音声を使用することで、従来法(注4)(注5)よりも効果的に話者の音声を秘匿できるマスキング音を生成することができます。実際に10名の被験者による主観評価実験で従来法との比較を行った結果、同じ音量でもOKI方式を用いることでマスキング効果が35%以上向上することを確認しました(下図)。さらに、マスキング音を5dB(2倍弱)大きくすることで、聴き取りにくさ100%(被験者全員が聴き取りにくいと回答)を達成しました。
主観評価の結果:聴き取りにくさが高いほど、マスキング効果が高いことを示す。
(聴取者(第三者)の位置で、話者の音声とマスキング音との音量比を等しくした場合)
本技術を用いたマスキング音を流すことで、会話の内容が周囲の人に漏れにくくなるため、個人情報を安心してやり取りすることができます。これにより、個室で行っていたような相談を小規模なブースでも行えるようになり、店舗スペースを有効に活用できます。なお、本技術は、2020年3月に開催されたシンポジウム「インタラクション2020(注6)」にて、インタラクティブ発表賞(PC委員会推薦)を受賞しています。
①マイクで音声を収録する
②音声区間検出:収録したマイク入録信号の音声区間を検出する
③ピッチ推定:音声区間のピッチ(注7)を推定する
④DB書込み:音声とピッチ情報を逐次データベースに蓄積する
⑤マスキング音生成:データベースの過去の音声からピッチの近い音声を選択し、選択した音声を加工し、マスキング音を生成する
⑥スピーカー:生成したマスキング音をスピーカーから出力する
スピーチプライバシー技術の処理フロー
音のマスキング効果で、聴き取りにくくさせている音。
会話内容の漏洩を防止すること。
2種類の音が重なった時に、片方の音が聴き取りにくくなる現象。
ピンクノイズを使用してマスキング音を生成する手法。
事前に収録した他者の音声データベースを使用してマスキング音を生成する手法。
毎年3月に開催される、一般社団法人情報処理学会Computer Human Interaction(CHI)関連分野の5研究会の共催による合同シンポジウム。各分野の研究者および実務者が一堂に会し、インタラクションに関わる最新の技術や情報を交換し議論する場であり、毎年700名超の参加者を集める、CHI分野では国内最大規模の研究イベント。
一般的に音の高さのこと。ここでは、音声の基本周波数のこと。