HOME    PRODUCTS    TECHNOLOGY    COMPANY    SUPPORT
TECHNOLOGY
規則音声合成(1)

音声合成の種類

一口で音声合成といっても、そこにはいくつかの種類があります。



録音合成タイプ

現在、最も一般的に利用されている音声合成は、録音合成タイプといわれるもので、駅のアナウンスやカーナビなどで使われています。 このタイプはあらかじめ収録しておいた音声をデジタル的に半導体メモリ等に保存して、再生時にはそこから読み出すものです。
収録した言葉以外は発声することができませんが、元の音声のニュアンスをストレートに再現できる特徴を持っています。
メモリに保存するときにADPCMなど何らかのデータ圧縮を行うのが一般的です。ちなみに通常は、4〜16kbps程度に圧縮します。
この方式は、発声内容が少なく、音質の特徴を生かす必要がある場合に適しています。

規則音声合成

規則音声合成は、任意の文を生成することができる音声合成です。
一般的には、音声を短い単位にした音声素片を用意しておき、合成する内容に応じて適切な音声素片を並べて合成します。 どうしても録音合成タイプに比べて細かいニュアンスの表現力は劣りますが、大量に発声する場合や、動的に内容を変化させる場合に適した方式です。
技術的には、音声素片の数や長さ、素片の選択手法、素片接続部分の不連続の処理方法、 イントネーションのモデル、波形生成のアルゴリズムなどがあり、これらの様々な技術的要素により音声品質が左右されます。

テキスト音声合成(Text-To-Speech TTS)

規則音声合成の中で、テキスト情報から音声を生成できるものをテキスト音声合成と呼んでいます。
日本語のテキスト音声合成で漢字かな混じり文を読ませるためには、読みやアクセント情報を含んだ言語辞書が必要となり、 単語を切り出すために形態素解析が必要となります。
一般的には、漢字かな混じり文を入力として、読みやアクセントを与えた中間形式のデータ(音声記号/発音記号)を出力する部分と、 中間形式のデータから音声波形を生成する2つの部分に分けることができ、前者は、日本語処理部あるいは言語処理部と呼ばれます。


   1 /  2 /  3   NEXT