• ホーム
  • ブログとニュース
  • 設計プロジェクト例
  • 顧問契約概要
  • お問い合わせ
  • …  
    • ホーム
    • ブログとニュース
    • 設計プロジェクト例
    • 顧問契約概要
    • お問い合わせ

     

    • ホーム
    • ブログとニュース
    • 設計プロジェクト例
    • 顧問契約概要
    • お問い合わせ
    • …  
      • ホーム
      • ブログとニュース
      • 設計プロジェクト例
      • 顧問契約概要
      • お問い合わせ

      音声合成エンジンの実装

      監視装置において、特定条件で音声合成を行う準備をする。RaspberryPi 5で音声合成(TTS:Text-to-Speech)をするには、いくつかの方法がある。用途として、簡単な通知用、スマートスピーカー風、高品質な音声、等によって選ぶべき方法が変わるようなので、主要な音声合成エンジンとライブラリーへのアプローチをする。試験的に音声発生はHDMIベースで行う。

      まずは軽量・高速に動作する TTS として定番のOpenJTalkから始める。

      音声ライブラリーは、htsvoice-tohoku-f01とmeiとnitech-jp-atr503-m001をinstall

      tohoku‑f01は4 つの感情 (neutral、 happy、 angry、 sad) を持つ女声音響モデルで、最も自然な女性の声となっている。

      meiは5つの感情(normal、happy、angry、sad、bashful)を持つ女声音響モデルで、tohoku-f01と比較すると自然な会話性では劣っている。

      nitech-jp-atr503-m001は1種類の弾性音響モデルである。

      音声としては弾性音響モデルは音質がこもる感じであり、女性音響モデルの方が音質の点から聞きやすい。また自然の会話性ではtohoku‑f01が良い。

      ※OpenJTalk は HTS (HMM‑based Speech Synthesis System) モデルを使っており、非常に軽量でメモリ効率がよく 、リソースが限られた環境でも使いやすとされている。一方で音声のナチュラルさ (人間らしさ) は、最新のニューラル (深層ネットワーク) ベースの TTS に比べると若干劣るようである。

      ※最近では自然な音声にもそこそこ近くなるONNX(Open Neural Network Exchange)モデルを使ったエンジンが公開され使われている。ONNXモデルのエンジンもラズパイ上で容量や負荷を抑えられるエンジンとしてチューンナップされている。Mimic 3( Mycroft が開発したオープンソースのニューラル TTS エンジン)、Piper(Raspberry Pi 向けに最適化された軽量ニューラル TTS)、Balacoon TTS(ONNX を使って軽量化されており、パッケージサイズが小さめ)等がある。次はPiperへアプローチする。

      前へ
      RasPi5にてモニタリングデバイスの開発開始
      次へ
      ONNX ベースの音声合成エンジンPiperへのアプローチ
       サイトへ戻る
      strikingly iconStrikinglyを搭載
      クッキーの使用
      ブラウジングエクスペリエンス、セキュリティ、データ収集を向上させるためにクッキーを使用します。 同意すると、広告と分析のための クッキーの使用に同意したことになります。 クッキーの設定はいつでも変更できます。 詳しく見る
      同意する
      設定
      すべて拒否する
      クッキー設定
      こちらのクッキーは、セキュリティ、ネットワーク管理、アクセシビリティなどのコア機能を有効にします。こちらのクッキーをオフにすることはできません。
      こちらのクッキーは、訪問者がサイトをどのように操作しているかをよりよく理解し、エラーを発見するのに役立ちます。
      こちらのクッキーにより、サイトは、拡張機能とパーソナライズを提供するために行った選択を記憶することができます。
      保存