Ir al contenido principal

Modelos de texto a voz

AI-Corporate admite modelos de texto a voz con los que convertir texto en audio. Estos modelos se utilizan en Texto a audio en el tablero y en funciones que generan audio desde un chat.

Catálogo actual

ProveedorModeloObservación
OpenAIGPT-4o mini TTSHabla de forma natural con buen control de tono y estilo.
GoogleGemini 3.1 Flash TTS PreviewNuevo modelo de voz Gemini con control preciso de estilo, tempo y tono.
European AIVoxtral Mini TTSTexto a voz europeo basado en Mistral Voxtral Mini.

Claude no tiene su propio modelo de texto a voz en el catálogo. Si Claude está habilitado como proveedor, los modelos de voz siguen dependiendo de los demás proveedores configurados.

Qué determina un modelo de voz

Un modelo de voz determina cómo se pronuncia el texto y qué capacidades están disponibles. Piense en:

  • las voces disponibles;
  • los idiomas que admite una voz;
  • la calidad y naturalidad de la pronunciación;
  • la forma en que se siguen las instrucciones sobre tempo, tono, acento y pronunciación.

Voces e idiomas

Las voces disponibles difieren entre proveedores. AI-Corporate muestra en texto a audio solo voces que encajan con el idioma seleccionado, o voces adecuadas para varios idiomas. Si una voz está destinada solo a ciertos idiomas, ese idioma se indica junto a la voz.

OpenAI y Google soportan la mayoría de los idiomas de el catálogo. Voxtral Mini TTS admite un conjunto menor de idiomas, incluyendo neerlandés, inglés, francés, español, portugués, italiano, alemán, hindi y árabe.

Systeemprompt

En texto a audio se puede usar el systeemprompt para dirigir la pronunciación y el estilo. Por ejemplo, puedes indicar que el neerlandés debe sonar de forma natural, que términos como AI, AI-Corporate, ChatGPT y OpenAI se pronuncien en inglés, o que Claude suene como un nombre francés.

Preferencias

Los usuarios pueden guardar sus configuraciones de texto a audio como preferencias personales. Así, no es necesario volver a elegir el modelo, el idioma, la voz y las instrucciones de pronunciación cada vez.