Modelli di sintesi testo-voce
AI-Corporate supporta modelli di sintesi testo-voce che permettono di convertire testo in audio. Questi modelli sono utilizzati in Testo in audio sulla dashboard e in funzioni che generano audio da una chat.
Catalogo attuale
| Fornitore | Modello | Nota |
|---|---|---|
| OpenAI | GPT-4o mini TTS | Voce naturale con buon controllo sul tono e sullo stile. |
| Gemini 3.1 Flash TTS Preview | Nuovo modello di voce Gemini con controllo accurato su stile, tempo e tono. | |
| European AI | Voxtral Mini TTS | Sintesi vocale europea basata su Mistral Voxtral Mini. |
Claude non ha alcun modello di sintesi testo-voce proprio nel catalogo. Se Claude è abilitato come fornitore, i modelli vocali restano dipendenti dagli altri fornitori configurati.
Cosa determina un modello vocale
Un modello vocale determina come viene pronunciato il testo e quali opzioni sono disponibili. Ad esempio:
- le voci disponibili;
- le lingue supportate da una voce;
- la qualità e la naturalezza dell’eloquio;
- il modo in cui le istruzioni su tempo, tono, accento e pronuncia sono seguite.
Voci e lingue
Le voci disponibili variano per fornitore. AI-Corporate mostra in testo in audio solo le voci che si adattano alla lingua scelta, o voci adatte a più lingue. Se una voce è destinata solo a determinate lingue, quella lingua è indicata accanto alla voce.
OpenAI e Google supportano la maggior parte delle lingue nel catalogo. Voxtral Mini TTS supporta un set di lingue più limitato, tra cui olandese, inglese, francese, spagnolo, portoghese, italiano, tedesco, hindi e arabo.
Prompt di sistema
In testo in audio il prompt di sistema può essere utilizzato per guidare l’eloquio e lo stile. Ad esempio, è possibile indicare che il tedesco deve suonare in modo naturale, che termini come AI, AI-Corporate, ChatGPT e OpenAI siano pronunciati in inglese, oppure che Claude debba suonare come un nome francese.
Preferenze
gli utenti possono salvare le proprie impostazioni di testo in audio come preferenze personali. In questo modo non è necessario scegliere nuovamente modello, lingua, voce e istruzioni di pronuncia ogni volta.