Text To Speech Technology

AquesTalk ESP32

AquesTalk ESP32を使えば、Espressif Systems製のWi-Fi/Bluetoothマイクロコントローラ ESP32(ESP-WROOM-32)で簡単に音声合成ができます。

特長

漢字仮名混じりのテキストからの音声合成: この規模の組み込みシステムでは珍しい、漢字を含むテキスト情報から音声合成ができます。辞書データは、SDメモリカードなどの比較的低速なデバイスに配置しても、高速に処理できます。
非常に少ないリソースと処理量で高速に音声を合成: ROM 200KB、RAM 21KB のサイズ(辞書データを除く)で音声合成が可能です。CPUの処理量を占有することがないので、他のプログラムの動作に影響を与えずに音声合成できます。
音声記号列からの音声合成だけを使う場合は、ROM 28KB、RAM 500B と、さらに小さいフットプリントになります。

開発環境

当社での動作確認環境は次のとおりです。

モジュール	ESP32-DevKitC, M5Stack core
IDE	Arduino core for the ESP32 / ESP-IDF

仕様

音声合成エンジン	AquesTalk-KM
ROMサイズ	200KB
RAMサイズ	21KB
辞書サイズ	7MB（約38万語） SPIフラッシュや SDカードなどの外付けメモリに配置
入力データ形式	漢字かな混じり文テキスト（UTF8）
音声出力	8KHzサンプリング 16bitPCM
声種	女声1種(pico F4)
関数I/F	C関数呼び出し

使用方法

ブログ「AquesTalk-ESP32 Ver.2.0を使う」を参照ください。

Download

ダウンロードページから評価版をダウンロードできます。

ライセンス

使用ライセンス: 製品版を使用するときのライセンス。ライセンスキーを設定することで製品版として動作します。
当社オンラインストアから「AquesTalk ESP32　使用ライセンス」を購入ください。
ESP32モジュール毎にライセンスが必要です。
頒布ライセンス: 「AquesTalk ESP32」を組み込んだ製品を販売する場合には、頒布ライセンスが必要です。

カスタマイズ

声種の変更等、各種カスタマイズを承っております。
製品に音声合成機能をご検討の場合は、お気軽にお問い合わせください。

改変履歴

2018/03/24 Ver.1.00: リリース開始
2018/08/08 Ver.2.00: 言語処理部の追加
2020/10/22 Ver.2.21: 言語処理部の改良