Przejdź do głównej treści

Tekst-naar-spraakmodellen

AI-Corporate obsługuje modele tekst-na-mowę, które konwertują tekst na dźwięk. Te modele są używane w sekcji Tekst na audio w dashboardzie oraz w funkcjach generujących dźwięk z czatu.

Obecny katalog

DostawcaModelUwagi
OpenAIGPT-4o mini TTSNaturalnie brzmiący głos z dobrą kontrolą tonu i stylu.
GoogleGemini 3.1 Flash TTS PreviewNowy model głosu Gemini z precyzyjną kontrolą stylu, tempa i tonu.
Europejska AIVoxtral Mini TTSEuropejski text-to-speech oparty na Mistral Voxtral Mini.

Claude nie ma własnego modelu tekst-na-mowę w katalogu. Jeśli Claude jest włączony jako dostawca, modele mowy będą zależeć od pozostałych skonfigurowanych dostawców.

Co określa model mowy

Model mowy określa, jak tekst jest wymawiany i jakie możliwości są dostępne. Na przykład:

  • dostępne głosy;
  • języki obsługiwane przez dany głos;
  • jakość i naturalność wymowy;
  • sposób, w jaki instrukcje dotyczące tempa, tonu, akcentu i wymowy są przestrzegane.

Głosy i języki

Dostępne głosy różnią się w zależności od dostawcy. AI-Corporate w sekcji tekst na audio pokazuje tylko głosy pasujące do wybranego języka, lub głosy odpowiednie dla wielu języków. Jeśli głos jest przeznaczony tylko dla określonych języków, jego język będzie podany przy głosie.

OpenAI i Google obsługują większość języków w katalogu. Voxtral Mini TTS obsługuje mniejszy zestaw języków, w tym niderlandzki, angielski, francuski, hiszpański, portugalski, włoski, niemiecki, hindi i arabski.

Systenprompt

W tekście na audio systenprompt może być używany do sterowania wymową i stylem. Możesz na przykład wskazać, że należy brzmieć naturalnie po niderlandzku, że terminy takie jak AI, AI-Corporate, ChatGPT i OpenAI mogą być wymawiane po angielsku, lub że Claude ma brzmieć jak francuskie imię.

Preferencje

Użytkownicy mogą zapisać swoje ustawienia tekst-na-audio jako preferencje. Dzięki temu model, język, głos i instrukcje wymowy nie muszą być wybierane za każdym razem ponownie.