Modele text-to-speech (TTS)
AI-Corporate oferă modele TTS care transformă textul în audio. Aceste modele sunt utilizate la Text to audio pe bordul de bord și în funcții care generează audio dintr-un chat.
Catalogul curent
| Furnizor | Model | Observații |
|---|---|---|
| OpenAI | GPT-4o mini TTS | Vorbire naturală, cu control bun asupra tonalității și stilului. |
| Gemini 3.1 Flash TTS Preview | Noul model vocal Gemini cu control precis asupra stilului, ritmului și tonalității. | |
| European AI | Voxtral Mini TTS | TTS european bazat pe Mistral Voxtral Mini. |
Claude nu are un model TTS propriu în catalog. Dacă Claude ca furnizor este activat, modelele de vorbire rămân în funcție de ceilalți furnizori configurați.
Ce stabilește un model TTS
Un model TTS stabilește cum este pronunțat textul și ce posibilități sunt disponibile. Gândește-te la:
- vocile disponibile;
- limbile pe care o voce le susține;
- calitatea și naturalitatea pronunției;
- modul în care se respectă instrucțiunile privind ritmul, tonalitatea, accentul și pronunția.
Vocile și limbile
Vocile disponibile variază în funcție de furnizor. AI-Corporate afișează la text-to-audio doar vocile care se potrivesc cu limba aleasă, sau vocile care sunt potrivite pentru mai multe limbi. Dacă o voce este destinată doar anumitor limbi, acea limbă este menționată lângă voce.
OpenAI și Google suportă cele mai multe limbi din catalog. Voxtral Mini TTS susține un set mai mic de limbi, printre care neerlandeza, engleza, franceza, spaniola, portugheza, italiana, germana, hindi și araba.
Systémprompt
La text-to-audio, systém prompt-ul poate fi folosit pentru a ghida pronunția și stilul. De exemplu, poți indica că o limba neerlandeză să sune natural, că termeni ca AI, AI-Corporate, ChatGPT și OpenAI să fie pronunțați în engleză, sau că Claude să sune ca un nume francez.
Preferințe
Utilizatorii își pot salva setările text-to-audio drept preferințe personale. Așadar, modelul, limba, vocea și instrucțiunile de pronunție nu trebuie alese de fiecare dată.