OKI Open up your dreams

研究開発

センシング技術研究開発部(音響メディア処理)

センシング技術研究開発部(音響メディア処理)メンバー

2020年4月に所属更新(執筆は、2019年12月)

(スタッフ紹介)

藤枝
2011年入社。チームマネージャー。博士(工学)。子供の頃からの音楽好きが高じて音響技術に目覚める。現在は、1ch雑音抑圧・プライベート音空間の研究開発、音声認識関連の技術を担当。部内きっての音楽通で、マンドリン奏者でもある。
片桐
2009年入社。学生時代は心理学・物理学・脳科学を専攻。入社後から、音声信号処理技術の研究開発に携わる。現在は、エリア収音・音像定位の研究開発をはじめ、話速変換技術、音声区間検出技術など幅広く手掛ける。
川畑
2010年入社。学生時代は情報理工学を専攻し、雑音抑圧処理の研究。現在は、スピーチプライバシー(サウンドマスキング)技術の研究開発に携わる傍らDSPなどハードウェア関連技術も担当。
上野
2018年入社。学生時代は情報通信工学を専攻し、研究テーマは磁気光学デバイス。入社後は現部署に配属され、片桐と共にエリア収音の研究開発を手掛け、未知の分野である音声処理技術の奥深さを実感している。

音声技術の実績を継承しつつ、新たなアプリケーションに挑む

コミュニケーションにおいて、映像と音声は欠かせないメディアである。音声通信の黎明期には、単に「聞こえる。内容が理解できる」というレベルでユーザーは満足していた。やがて「雑音が少なくクリアに聞きたい」「肉声に近い状態で聞きたい」などといったニーズを実現するため通信技術は進化してきた。時を経て、携帯電話やIP電話に代表されるデジタル通信の時代には、ハウリング、エコー、遅延などの問題を解決することで、普及を加速させた。その背景には、通信技術と並んで音声処理技術の進化がある。

OKIは、古くは音声符号化から、音声合成、音声認識、IP電話の高音質化など、音響・音声処理技術分野で多くの実績を積み上げてきた。そして、現在は、そのレガシーを継承しつつIoTに対応し、端末の存在を意識することなく、リアルで臨場感のある音声コミュニケーションを安全な環境で実現する音響メディア処理技術の研究開発に取り組んでいる。その推進力となっているのが「メディア処理技術チーム」だ。

藤枝

「私たちのチームの原型は、経産省のプロジェクトにおいて『音声分離技術』の開発を手掛けるため2007年に結成されたチームです。やがて、2009年からはNICT(注1)のプロジェクトで『超臨場感コミュニケーションシステム』の研究開発などを手掛けてきました。そして、次第に世代交代が進み、現在は、音声処理や信号処理のキャリアを持つ中堅3名と、新人を含めた若手2名からなるフレッシュなメンバーによって構成されています。メンバー各人がそれぞれ独自の研究テーマを持ち、事業化などのプロジェクトが始動すれば、チーム一丸となって研究開発に取り組むというスタンスで、個人プレーとチームプレーを両立させた技術者集団です」とチームマネージャーの藤枝は、チームの特色を語る。

ピンポイントで音をキャッチする「エリア収音技術」

現在、チームが最も注力している技術のひとつに「エリア収音技術」がある。複数のマイクアレイ(最少2組)で、特定エリアの目的音だけを収音する技術で、駅構内などの雑踏に設置される自動化端末をはじめ、ビデオ会議などのハンズフリー通話や、音声認識精度を向上させる前処理(雑音除去)としての活用が可能だ。

「これは、私が数年前にNICT(情報通信研究機構)の委託研究として開発を始めた技術です。仕組みとしては、目的音を異なる角度からマイクアレイで収音し、それぞれの周波数領域から共通の音成分だけをピックアップするものです。すでに、鉄道会社と提携し、駅構内の自動券売・案内端末の音声インターフェースとしての実証実験も済ませ、実用段階に迫っています」と担当する片桐は言う。

片桐

実証実験において、収集した音声データの分析・評価を担当した若手の上野は、「試験機を設置する環境によってパラメーターは変化し、理論値と実測値にギャップが生じるなど、つくづく音響技術の奥深さ、難しさを実感しました」と振り返る。

この技術は、自動端末の音声インターフェース以外にも、金融機関、医療機関など対面カウンターでの会話内容の記録/認識による業務支援や、会議における議事録作成支援などへの応用が期待されている。また、エリア収音ハンドセットとしてプロトタイプを作製し、消防・救急・工事現場など、騒音現場での連絡手段としてデモも実施されている。

エリア収音技術の概要
エリア収音技術の概要

会話の秘匿性を高めるOKI独自の「スピーチプライバシー技術」

OKIでは音質の向上や音声の聞き取りやすさを追求する技術とは逆に、音声を聞き取り難くする技術開発にも着手している。会話の音声にマスキング音を被せる「スピーチプライバシー技術」だ。対話型の自動端末がある場所や、接客カウンターなどのオープンスペースでも、対話の当事者以外には会話内容を聞き取り難くすることを目指している

川端

「大学との共同研究として2017年からスタートしたプロジェクトです。類似のシステムはすでに他社から商品化されています。しかし、従来方式は収録した効果音・環境音からマスキング音を生成しているため、マスキング音を大きな音量で再生しなければいけません。私たちが手掛けている技術では、今まさに話している話者の音声からリアルタイムでマスキング音を生成するため、従来方式と比較して小さな音量でマスキングでき、違和感なく会話のプライバシーを確保します」と開発を担当する川畑は、開発中のシステムのメリットを語った。

「個人の健康や資産などに関する情報は、高いレベルで保護されるべきです。したがって、薬局、病院、金融機関などの対面窓口でのプライバシー保護をファーストターゲットとし、さらにはオフィスやオープンスペースなどの会議・打ち合わせ内容の秘匿、公共の場所に設置される音声インターフェースを活用した自動端末などへの活用も想定しています」(藤枝)。

多彩な研究テーマを掲げ、OKIらしい技術を探究

上野

チームでは、これらの技術以外にもさまざまな音響・音声処理技術の研究開発に取り組んでいる。声質を変えずに音声のスピードを変える「話速変換」、ひとつのマイクで背景雑音を抑圧する「1ch雑音抑制」、正面の音声だけを収音する「音源分離」、遅延の変動に強い「エコーサプレッサ」は、「高品質音声信号処理ライブラリeおと」に使われている。その他にも、音が聞こえてくる方向をコントロールする「音像定位」、3.4~7kHzの音声帯域を拡張して聞き取りやすくする「音声帯域拡張」などの技術を持っている。

「今後は、これらの技術を実装したシステムを開発し、広く社会に貢献するというOKIらしさを発揮していきたいと思っています」と藤枝はチームとしてのビジョンを語ってくれた。

そして、メンバーも「エリア収音の研究開発は一段落ついたので、次はディープラーニングを活用した音声処理技術に挑戦したい」(片桐)、「サウンドマスキングの実用化を進めると同時に、テレビ会議システムなどで使用する多チャンネル信号処理を研究したい」(川畑)、「先輩方と同様、自身の研究テーマを1日も早く見つけ、チームに貢献したい」(上野)と、それぞれの決意を口にした。

音声をベースにしたOKIのコミュニケーション技術の未来は、彼らの双肩にかかっていると言っても決して過言ではない。

  • 注1:NICT

    National Institute of Information and Communications Technology(情報通信研究機構)。情報通信技術の研究開発や情報通信分野の事業支援などを行う、総務省所管の国立研究開発法人。

チームの様子

OKIの採用情報について

ページの先頭へ

Special Contents

      お問い合わせ

      お問い合わせ