Vai al contenuto principale

Modelli di sintesi testo-voce

AI-Corporate supporta modelli di sintesi testo-voce che permettono di convertire testo in audio. Questi modelli sono utilizzati in Testo in audio sulla dashboard e in funzioni che generano audio da una chat.

Catalogo attuale

FornitoreModelloNota
OpenAIGPT-4o mini TTSVoce naturale con buon controllo sul tono e sullo stile.
GoogleGemini 3.1 Flash TTS PreviewNuovo modello di voce Gemini con controllo accurato su stile, tempo e tono.
European AIVoxtral Mini TTSSintesi vocale europea basata su Mistral Voxtral Mini.

Claude non ha alcun modello di sintesi testo-voce proprio nel catalogo. Se Claude è abilitato come fornitore, i modelli vocali restano dipendenti dagli altri fornitori configurati.

Cosa determina un modello vocale

Un modello vocale determina come viene pronunciato il testo e quali opzioni sono disponibili. Ad esempio:

  • le voci disponibili;
  • le lingue supportate da una voce;
  • la qualità e la naturalezza dell’eloquio;
  • il modo in cui le istruzioni su tempo, tono, accento e pronuncia sono seguite.

Voci e lingue

Le voci disponibili variano per fornitore. AI-Corporate mostra in testo in audio solo le voci che si adattano alla lingua scelta, o voci adatte a più lingue. Se una voce è destinata solo a determinate lingue, quella lingua è indicata accanto alla voce.

OpenAI e Google supportano la maggior parte delle lingue nel catalogo. Voxtral Mini TTS supporta un set di lingue più limitato, tra cui olandese, inglese, francese, spagnolo, portoghese, italiano, tedesco, hindi e arabo.

Prompt di sistema

In testo in audio il prompt di sistema può essere utilizzato per guidare l’eloquio e lo stile. Ad esempio, è possibile indicare che il tedesco deve suonare in modo naturale, che termini come AI, AI-Corporate, ChatGPT e OpenAI siano pronunciati in inglese, oppure che Claude debba suonare come un nome francese.

Preferenze

gli utenti possono salvare le proprie impostazioni di testo in audio come preferenze personali. In questo modo non è necessario scegliere nuovamente modello, lingua, voce e istruzioni di pronuncia ogni volta.