Перейти до основного змісту

Текстово-у-роті розпізнавання тона (Текст-до-голосу)

AI-Corporate підтримує моделі тексту в мову, які перетворюють текст на аудіо. Ці моделі використовуються у розділі Текст у аудіо на панелі керування та у функціях, що генерують аудіо з чату.

Поточний каталог

ПостачальникМодельПримітка
OpenAIGPT-4o mini TTSПриродна вимова з добрим керуванням тоном і стилем.
GoogleGemini 3.1 Flash TTS PreviewНовий голосовий модель Gemini з точною настройкою стилю, темпу та тону.
Європейський AIVoxtral Mini TTSЄвропейська система text-to-speech на основі Mistral Voxtral Mini.

Claude не має власної моделі тексту в мову у каталозі. Якщо Claude увімкнено як постачальник, голосові моделі залежать від інших налаштованих постачальників.

Що визначає модель голосу

Модель голосу визначає, як текст вимовляється та які можливості доступні. Наприклад:

  • доступні голоси;
  • мови, що підтримує голос;
  • якість і природність вимови;
  • спосіб виконання інструкцій щодо темпу, тону, акценту й вимови.

Голоси та мови

Доступні голоси відрізняються залежно від постачальника. AI-Corporate відображає у тексті до аудіо лише голоси, які підходять до обраної мови, або голоси, придатні для кількох мов. Якщо голос призначено лише для певних мов, відповідна мова вказується поруч із голосом.

OpenAI та Google підтримують більшість мов у каталозі. Voxtral Mini TTS підтримує менший набір мов, зокрема нідерландську, англійську, французьку, іспанську, португальську, італійську, німецьку, хінді та арабську.

Системна промпта

У тексті до аудіо системна промпта може використовуватися для керування вимовою та стилем. Наприклад, ви можете вказати, що нідерландська повинна звучати природно, що терміни як AI, AI-Corporate, ChatGPT та OpenAI слід вимовляти англійською вимовою, або що Claude має звучати як французьке ім'я.

Віддачі переваги

Користувачі можуть зберігати свої налаштування тексту-до-аудіо як особисті переваги. Таким чином не потрібно кожного разу обирати модель, мову, голос та вимову.