Modelos de Texto-para-Fala
AI-Corporate suporta modelos de texto-para-fala que convertem texto em áudio. Esses modelos são usados em Texto para áudio no painel e em recursos que geram áudio a partir de um chat.
Catálogo atual
| Provedor | Modelo | Observação |
|---|---|---|
| OpenAI | GPT-4o mini TTS | Fala natural com bom controle de tom e estilo. |
| Gemini 3.1 Flash TTS Preview | Novo modelo de fala Gemini com controle preciso de estilo, tempo e tom. | |
| European AI | Voxtral Mini TTS | fala de texto para fala europeia baseada no Mistral Voxtral Mini. |
Claude não possui um modelo próprio de texto-para-fala no catálogo. Se Claude estiver ativado como provedor, os modelos de fala permanecerão dependentes dos outros provedores configurados.
O que determina um modelo de fala
Um modelo de fala determina como o texto é pronunciado e quais possibilidades estão disponíveis. Pense em:
- as vozes disponíveis;
- os idiomas que uma voz suporta;
- a qualidade e naturalidade da pronúncia;
- a forma como instruções sobre tempo, tom, sotaque e pronúncia são seguidas.
Vozes e idiomas
As vozes disponíveis variam conforme o provedor. AI-Corporate mostra em texto para áudio apenas vozes que se enquadram no idioma escolhido, ou vozes adequadas para vários idiomas. Se uma voz for destinada apenas a certos idiomas, esse idioma é indicado junto à voz.
OpenAI e Google suportam a maioria dos idiomas no catálogo. Voxtral Mini TTS suporta um conjunto menor de idiomas, incluindo holandês, inglês, francês, espanhol, português, italiano, alemão, hindi e árabe.
Systeemprompt
Em texto para áudio, o systeemprompt pode ser usado para orientar a pronúncia e o estilo. Você pode, por exemplo, indicar que o neerlandês deve soar naturalmente, que termos como AI, AI-Corporate, ChatGPT e OpenAI devem ser pronunciados em inglês, ou que Claude deve soar como um nome francês.
Preferências
Os usuários podem salvar suas configurações de texto-para-áudio como preferências pessoais. Assim, não é necessário escolher repetidamente o modelo, idioma, voz e instruções de pronúncia.