Tekst-naar-spraakmodellen
AI-Corporate obsługuje modele tekst-na-mowę, które konwertują tekst na dźwięk. Te modele są używane w sekcji Tekst na audio w dashboardzie oraz w funkcjach generujących dźwięk z czatu.
Obecny katalog
| Dostawca | Model | Uwagi |
|---|---|---|
| OpenAI | GPT-4o mini TTS | Naturalnie brzmiący głos z dobrą kontrolą tonu i stylu. |
| Gemini 3.1 Flash TTS Preview | Nowy model głosu Gemini z precyzyjną kontrolą stylu, tempa i tonu. | |
| Europejska AI | Voxtral Mini TTS | Europejski text-to-speech oparty na Mistral Voxtral Mini. |
Claude nie ma własnego modelu tekst-na-mowę w katalogu. Jeśli Claude jest włączony jako dostawca, modele mowy będą zależeć od pozostałych skonfigurowanych dostawców.
Co określa model mowy
Model mowy określa, jak tekst jest wymawiany i jakie możliwości są dostępne. Na przykład:
- dostępne głosy;
- języki obsługiwane przez dany głos;
- jakość i naturalność wymowy;
- sposób, w jaki instrukcje dotyczące tempa, tonu, akcentu i wymowy są przestrzegane.
Głosy i języki
Dostępne głosy różnią się w zależności od dostawcy. AI-Corporate w sekcji tekst na audio pokazuje tylko głosy pasujące do wybranego języka, lub głosy odpowiednie dla wielu języków. Jeśli głos jest przeznaczony tylko dla określonych języków, jego język będzie podany przy głosie.
OpenAI i Google obsługują większość języków w katalogu. Voxtral Mini TTS obsługuje mniejszy zestaw języków, w tym niderlandzki, angielski, francuski, hiszpański, portugalski, włoski, niemiecki, hindi i arabski.
Systenprompt
W tekście na audio systenprompt może być używany do sterowania wymową i stylem. Możesz na przykład wskazać, że należy brzmieć naturalnie po niderlandzku, że terminy takie jak AI, AI-Corporate, ChatGPT i OpenAI mogą być wymawiane po angielsku, lub że Claude ma brzmieć jak francuskie imię.
Preferencje
Użytkownicy mogą zapisać swoje ustawienia tekst-na-audio jako preferencje. Dzięki temu model, język, głos i instrukcje wymowy nie muszą być wybierane za każdym razem ponownie.