Перейти к основному содержимому

Текстово-говоревые модели

AI-Corporate поддерживает текстово-говоревые модели, которые преобразуют текст в аудио. Эти модели используются в разделе Текст в аудио на панели управления и в функциях, которые генерируют аудио из чата.

Текущий каталог

ПоставщикМодельПримечание
OpenAIGPT-4o mini TTSНатурально звучащая речь с хорошим управлением тоном и стилем.
GoogleGemini 3.1 Flash TTS PreviewНовый голосовой модель Gemini с точным управлением стилем, темпом и тоном.
Европейский ИИVoxtral Mini TTSЕвропейский текст-в-речь на основе Mistral Voxtral Mini.

Claude не имеет собственной текстово-говоревой модели в каталоге. Если Claude включен как поставщик, голоса остаются зависят от других сконфигурированных поставщиков.

Что определяет голосовую модель

Голосовая модель определяет, как текст произносится и какие возможности доступны. Подумайте о:

  • доступных голосах;
  • языках, которые поддерживает голос;
  • качестве и естественности произнесения;
  • способе выполнения инструкций по темпу, тону, акценту и произнесению.

Голоса и языки

Доступные голоса различаются в зависимости от поставщика. AI-Corporate отображает при текст-во-аудио только голоса, подходящие под выбранный язык, или голоса, пригодные для нескольких языков. Если голос предназначен для определённых языков, этот язык указан рядом с голосом.

OpenAI и Google поддерживают большинство языков в каталоге. Voxtral Mini TTS поддерживает меньший набор языков, в том числе нидерландский, английский, французский, испанский, португальский, итальянский, немецкий, хинди и арабский.

Системная подсказка

При преобразовании текста в аудио системная подсказка может использоваться для управления произнесением и стилем. Например, вы можете указать, что нидерландский должен звучать естественно, что термины как AI, AI-Corporate, ChatGPT и OpenAI произносились с английским произношением, или что Claude следует произносить как французское имя.

Предпочтения

Пользователи могут сохранять настройки текст-во-аудио как персональные предпочтения. Так не нужно каждый раз выбирать модель, язык, голос и инструкции по произнесению.