Текстово-говоревые модели
AI-Corporate поддерживает текстово-говоревые модели, которые преобразуют текст в аудио. Эти модели используются в разделе Текст в аудио на панели управления и в функциях, которые генерируют аудио из чата.
Текущий каталог
| Поставщик | Модель | Примечание |
|---|---|---|
| OpenAI | GPT-4o mini TTS | Натурально звучащая речь с хорошим управлением тоном и стилем. |
| Gemini 3.1 Flash TTS Preview | Новый голосовой модель Gemini с точным управлением стилем, темпом и тоном. | |
| Европейский ИИ | Voxtral Mini TTS | Европейский текст-в-речь на основе Mistral Voxtral Mini. |
Claude не имеет собственной текстово-говоревой модели в каталоге. Если Claude включен как поставщик, голоса остаются зависят от других сконфигурированных поставщиков.
Что определяет голосовую модель
Голосовая модель определяет, как текст произносится и какие возможности доступны. Подумайте о:
- доступных голосах;
- языках, которые поддерживает голос;
- качестве и естественности произнесения;
- способе выполнения инструкций по темпу, тону, акценту и произнесению.
Голоса и языки
Доступные голоса различаются в зависимости от поставщика. AI-Corporate отображает при текст-во-аудио только голоса, подходящие под выбранный язык, или голоса, пригодные для нескольких языков. Если голос предназначен для определённых языков, этот язык указан рядом с голосом.
OpenAI и Google поддерживают большинство языков в каталоге. Voxtral Mini TTS поддерживает меньший набор языков, в том числе нидерландский, английский, французский, испанский, португальский, итальянский, немецкий, хинди и арабский.
Системная подсказка
При преобразовании текста в аудио системная подсказка может использоваться для управления произнесением и стилем. Например, вы можете указать, что нидерландский должен звучать естественно, что термины как AI, AI-Corporate, ChatGPT и OpenAI произносились с английским произношением, или что Claude следует произносить как французское имя.
Предпочтения
Пользователи могут сохранять настройки текст-во-аудио как персональные предпочтения. Так не нужно каждый раз выбирать модель, язык, голос и инструкции по произнесению.