Tekst-naar-spraakmodellen

AI-Corporate obsługuje modele tekst-na-mowę, które konwertują tekst na dźwięk. Te modele są używane w sekcji Tekst na audio w dashboardzie oraz w funkcjach generujących dźwięk z czatu.

Obecny katalog

Dostawca	Model	Uwagi
OpenAI	GPT-4o mini TTS	Naturalnie brzmiący głos z dobrą kontrolą tonu i stylu.
Google	Gemini 3.1 Flash TTS Preview	Nowy model głosu Gemini z precyzyjną kontrolą stylu, tempa i tonu.
Europejska AI	Voxtral Mini TTS	Europejski text-to-speech oparty na Mistral Voxtral Mini.

Claude nie ma własnego modelu tekst-na-mowę w katalogu. Jeśli Claude jest włączony jako dostawca, modele mowy będą zależeć od pozostałych skonfigurowanych dostawców.

Co określa model mowy

Model mowy określa, jak tekst jest wymawiany i jakie możliwości są dostępne. Na przykład:

dostępne głosy;
języki obsługiwane przez dany głos;
jakość i naturalność wymowy;
sposób, w jaki instrukcje dotyczące tempa, tonu, akcentu i wymowy są przestrzegane.

Głosy i języki

Dostępne głosy różnią się w zależności od dostawcy. AI-Corporate w sekcji tekst na audio pokazuje tylko głosy pasujące do wybranego języka, lub głosy odpowiednie dla wielu języków. Jeśli głos jest przeznaczony tylko dla określonych języków, jego język będzie podany przy głosie.

OpenAI i Google obsługują większość języków w katalogu. Voxtral Mini TTS obsługuje mniejszy zestaw języków, w tym niderlandzki, angielski, francuski, hiszpański, portugalski, włoski, niemiecki, hindi i arabski.

Systenprompt

W tekście na audio systenprompt może być używany do sterowania wymową i stylem. Możesz na przykład wskazać, że należy brzmieć naturalnie po niderlandzku, że terminy takie jak AI, AI-Corporate, ChatGPT i OpenAI mogą być wymawiane po angielsku, lub że Claude ma brzmieć jak francuskie imię.

Preferencje

Użytkownicy mogą zapisać swoje ustawienia tekst-na-audio jako preferencje. Dzięki temu model, język, głos i instrukcje wymowy nie muszą być wybierane za każdym razem ponownie.

Obecny katalog​

Co określa model mowy​

Głosy i języki​

Systenprompt​

Preferencje​

Obecny katalog

Co określa model mowy

Głosy i języki

Systenprompt

Preferencje