OKIOpen up your dreams

Japan

  • Global Site
  • お問い合わせ
  • サイトマップ
  • Chinese Site
サイト内検索

 


現在位置:Home > OKIについて > 研究開発 > 注力する技術 > 声と音の技術 > テキスト音声変換技術


研究開発

声と音の技術 テキスト音声変換技術

1.テキスト音声変換とは
2.テキスト音声変換方式
3.音声素片の生成

1.テキスト音声変換とは

テキスト音声変換とは、通常の漢字かな混じり文から音声を合成することです。
出力語彙数に制限がなく、音声合成の応用分野を飛躍的に拡大し得る技術です。

ページの先頭へ

2.テキスト・音声変換方式

図1.に、テキスト・音声変換システムの構成を示します。
全体はテキスト解析部、合成パラメータ生成部、音声合成部に大別されます。以下、各部の処理について説明します。


図1.テキスト音声変換の流れ

2.1 テキスト解析部

テキスト解析部は、入力された漢字かな交じり文の読み、アクセント、イントネーションを決定し、中間言語(発音記号列)として出力します。
中間言語は、単語分割、アクセント句設定、呼気段落設定という3ステップを経て決定されます。

2.1.1 中間言語

中間言語とは、テキスト音声変換の合成出力に必要な読み方の制御を簡易に記述した言語です。次の表に中間言語に用いられる記号を示します。

音韻記号 カタカナ
韻律記号 アクセント記号 ]:強アクセント
}:中アクセント
|:弱アクセント
フレーズ記号 P1:文頭用
P2,P3:文中用
P0:文末用
ポーズ記号 。:大ポーズ
、:中ポーズ
,:小ポーズ
2.1.2 単語分割

漢字には音・訓など複数の読みがあり、どの読みになるかは文章や単語の中で用いられて初めて決まります。ところが日本語の表記は、英語などと違い、単語を分けて書く習慣がありません。そのため、読みやアクセントを得るためには、まず、ベタ書きされた漢字かな交じり文の単語を、一語一語正しく分割する必要があります。
単語分割には、単語辞書を参照し、文法的接続関係をチェックしながら順次単語系列に区分する最長一致法を用いています。ただし、未知語(単語辞書に登録されていない単語)の数を極力減らすべく、局所的にバックトラック探索を行うように改良し、高速で高精度な単語分割を実現しています。単語辞書には各単語の読み仮名、文法情報、アクセント型などが登録されており、単語分割と同時にこれらの情報が得られるようになっています。

2.1.3 アクセント句の設定

日本語のアクセントは高低アクセントであり、単語の各音節は高/低いずれかの高さに発音されます。標準語の場合、低から高へ上がる箇所は単語の先頭にしか現れません。そして、高から低へ下がる箇所が先頭から数えて何拍目にくるかによって、その単語のアクセント型を決めています。ただし文中においては、文法的なまたは意味的なまとまりにアクセントが1つ付く傾向があります(このまとまリをアクセント句と呼びます)。したがって、複数の単語が集まって文節や句を形成する場合、アクセントの移動・生起・消失という現象が起こります。この貌象は、テキスト解析部中にアクセント結合規則として記述されており、単語の品詞や付属語のアクセント結合様式によって決まります。


アクセント結合規則(例)

2.1.4 呼気段落の設定

人間が一息で発声する単位を、呼気段落と呼びます(フレーズともいいます)。1つの文は、1つ以上の呼気段落からなっています。呼気段落のイントネーション概形は、急に立ち上がり後々に減少する「へ」の字形をしています。したがって、文のイントネーション(ピッチパターンの変化)は、呼気段落の「へ」字形成分(巨視的なフレーズ成分)に、各アクセント句の高低成分(微視的なアクセント成分)を重ね合わせたものになっています。
テキスト解析部は、係り受けのある隣接したアクセント句を1つにまとめて呼気段落を形成します。中間言語中の記号Pは、1つの呼気段落の始まりを示しています。また、「へ」の字形の大きさは、呼気段落の長さ(指数)に基づいて決定されています。記号Pに続く数字が、その大きさを示します。なお、文が終わる感じを出すために、文末のイントネーション生成用のPOを中間言語の末尾に付けています。

2.1.5 未知語の発音

単語辞書には約6万語が登録されていますが、固有名詞や専門用語などすべてが収録されているわけではありません。したがって、単語分割の結果できる未知語(辞書未登録語)に対して、その発音(読み・アクセント)を自動的に決めてやる必要があります。
未知語の発音は、未知語を構成する文字の種類に基づいて統計的な見地から決定することができます。たとえば、カタカナ列の未知語は、後ろから3拍目にアクセントを設定します。また、アルファベット列の未知語は、原則として1文字ずつ読み、アクセントは最終文字の1拍目に設定します。ただし、比較的に長いアルファベット列は、原音(英語)に近い読みとカタカナ列としてのアクセントを付与します。


未知語の発音(例)

2.1.6 数詞の発音

数詞は、電話番号のように棒読みされる場合と、位を付けて桁読みされる場合があります。テキスト解析部は、次に述べる規則を用いて、読み方の場合分けを自動的に行います。すなわち、数詞にカンマないし助数詞が付いている時に、あるいは数詞が漢数字で表記されている時に、桁読みを行い、それ以外の時は、棒読みにしています。ただし、「一本(イチホン→イッポン)」のように助数詞が付いて促音化する場合は、接続部前後の音韻の種類に基づく規則で対処しています。


数詞の発音(例)

2.1.7 その他の音韻処理

各単語の読みは、基本的に単語分割の際の辞書引きで決まりますが、さらに、エ段に続く「イ」とオ段に続く「ウ」を長音化する処理と、単語が結合した時、後の単語の1拍目を濁音化する処理(連濁)も行っています。


長音化・連濁処理(例)

2.1.8 処理例

最初の漢字かな混じり文から最後の中間言語の生成までを一つの文章で追ってみます。

2.2 合成パラメータ生成部

合成パラメータ生成部では、テキスト解析によって得られた中間言語から、音声素片、各音韻の継続時間長、およびピッチ(声の高さ)、振幅(声の大きさ)の時間変化パターンなど、音声合成に必要なパラメータを生成します。図2に、生成されたパラメータの具体例を示します。


図2.合成パラメータの例

2.2.1 継続時間長

連続音声中の音韻の継続時間長は、多くの要因で複雑に変化します。ここでは子音+母音からなる音節を単位として、その長さを以下のように規則化しています。
着目する音節に関して、まず当該音節の母音開始点から継続音節の母音開始点までの間隔を、発声速度、呼気段落の音節数、呼気段落内での音節位置、文節内の音節位置に応じて設定します。次に、当該子音の種類、先行音節の種類、後続子音の種類などの前後環境を考慮して、設定値に修正を加えます。こうして求めた設定値に対して、基本的に子音部の長さは変更せず、母音部を伸縮することにより音節長を調整します。

2.2.2 ピッチパターンの生成

フレーズ成分とアクセント成分を、対数周波数軸上でそれぞれ臨界制動2次線形系のインパルス応答関数、およびステップ応答関数で近似し、その総和として文全体のピッチパターンを生成します。この方法は藤崎モデルと呼ばれ、文書声のピッチパターン生成法として広く用いられています。ここでは、モデルの基本関数に独自の改良を加えて使用しています。

2.2.3 振幅パターンの生成

これまで音節の振幅パターンは、子音部パワー、母音部パワーの2値から直線近似モデルにより生成してきましたが、このモデルでは、実音声の振幅パターンに対して近似精度が悪く、バ行、タ行などの破裂性子音の了解性に問題がでていました。そこで実音声の振幅パターンを積極的に取り入れた方法で、パターン生成を行いました。
具体的には、子音部の先頭から母音の立ち上がり部分までは、実音声から得た振幅パターンを内部データとして保持し、これを直接利用する方法をとりました。残りの母音部分については、後続子音始端の振幅値に向かって直線補間で生成し、さらに、得られた音節振幅パターンに対し、呼気段落の音節数、呼気段落内の音節位置によって定まる係数を乗じて、合成時の振幅パターンとしています。

2.3 音声合成部

合成パラメータ生成部より、パラメータの更新周期(フレーム周期)ごとにピッチ、振幅、音声素片を受け取り、波形重畳法により音声波形を合成します。用いています、波形重畳法は、図3に示すように、音声素片をピッチ周期ごとにずらして重ね合わせるもので、波形データをベースにしているため、合成処理が簡単な上、明瞭性の高い合成音が得られるという特長があります。


図3.波形重畳法による音声波形の合計

ページの先頭へ

3.音声素片の作成

3.1 音声の合成単位

任意の音声を合成するためには、蓄積すべき音声データの単位を音素、音節など、単語より小さいものに選ぶ必要があります。従来、合成の単位として種類が比較的少なく、日本語音声との対応がよいCV音節(C:子音Consonant、V:母音Vowel)を用いてきました。しかし、CV音節を用いた合成(図 4(a))では、異なる音韻(母音-子音)間で合成単位の接続を行うため、スペクトルの不連続が生じ、滑らかさを欠いた合成音となっていました。また母音から子音への遷移区間は、後続子音の知覚に重要な役割を果たしており、この区間をもたない合成単位は子音の了解性の面でも問題がありました。これを改善するため、母音-子音の遷移部分から後続母音の定常部終端までの一連の区間を含むVCV音韻連鎖を、音声合成の基本単位としました(図4(b))。


図4.音声の合成単位

3.2 音声素片の作成

CV、VCVなどの合成単位を音声波形そのもので蓄積したのでは、ピッチ、振幅などを精密に制御することが困難です。そこで、音声データを規則合成に適した表現形式にするため、合成単位の音声波形を短時間区間ごとに分析し、それぞれの区間から音声の1ピッチに相当する素片波形を作成しています。この合成単位を構成する個々の1ピッチ相当波形を、ここでは『音声素片』と呼びます。音声素片の品質は、スペクトル包絡をいかに高精度に抽出するかでほぼ決まります。スペクトル包絡推定手法としてPSE(Power Spectrum Envelope)法を用いています。
図5に、PSE法によるスペクトル包絡抽出過程を示します。対数パワースペクトルの周波数軸に沿ってピッチ周波数の整数倍の位置を標本化し、この標本化データから、包絡を余弦級数で最小二乗推定します。スペクトル微細構造のピークのみを用いるこの方法は、微細構造の形状によらず安定して正確な包絡を得ることができます。


図5.PSE法によるスペクトル包絡の抽出

  • 本内容は、矢頭隆他:テキスト・音声変換技術の開発、沖電気研究開発152号vol.88 No.4から引用しました。

ページの先頭へ