音声合成エンジンの実装

音声合成エンジンの実装

監視装置において、特定条件で音声合成を行う準備をする。RaspberryPi 5で音声合成（TTS：Text-to-Speech）をするには、いくつかの方法がある。用途として、簡単な通知用、スマートスピーカー風、高品質な音声、等によって選ぶべき方法が変わるようなので、主要な音声合成エンジンとライブラリーへのアプローチをする。試験的に音声発生はHDMIベースで行う。

まずは軽量・高速に動作する TTS として定番のOpenJTalkから始める。

音声ライブラリーは、htsvoice-tohoku-f01とmeiとnitech-jp-atr503-m001をinstall

tohoku‑f01は4 つの感情 (neutral、 happy、 angry、 sad) を持つ女声音響モデルで、最も自然な女性の声となっている。

meiは5つの感情（normal、happy、angry、sad、bashful）を持つ女声音響モデルで、tohoku-f01と比較すると自然な会話性では劣っている。

nitech-jp-atr503-m001は1種類の弾性音響モデルである。

音声としては弾性音響モデルは音質がこもる感じであり、女性音響モデルの方が音質の点から聞きやすい。また自然の会話性ではtohoku‑f01が良い。

※OpenJTalk は HTS (HMM‑based Speech Synthesis System) モデルを使っており、非常に軽量でメモリ効率がよく 、リソースが限られた環境でも使いやすとされている。一方で音声のナチュラルさ (人間らしさ) は、最新のニューラル (深層ネットワーク) ベースの TTS に比べると若干劣るようである。

※最近では自然な音声にもそこそこ近くなるONNX（Open Neural Network Exchange）モデルを使ったエンジンが公開され使われている。ONNXモデルのエンジンもラズパイ上で容量や負荷を抑えられるエンジンとしてチューンナップされている。Mimic 3（ Mycroft が開発したオープンソースのニューラル TTS エンジン）、Piper（Raspberry Pi 向けに最適化された軽量ニューラル TTS）、Balacoon TTS（ONNX を使って軽量化されており、パッケージサイズが小さめ）等がある。次はPiperへアプローチする。