Gå till huvudinnehållet

Text-till-tal-modeller

AI-Corporate stöder text-to-speech-modeller som konverterar text till ljud. Dessa modeller används vid Text till ljud på instrumentpanelen och i funktioner som genererar ljud från en chat.

Nuvarande katalog

LeverantörModellKommentar
OpenAIGPT-4o mini TTSNaturlig låter röst med bra styrning av ton och stil.
GoogleGemini 3.1 Flash TTS PreviewNytt Gemini-talmodell med exakt styrning av stil, tempo och ton.
Europeisk AIVoxtral Mini TTSEuropeisk text-till-tal baserad på Mistral Voxtral Mini.

Claude har ingen egen text-till-talmodell i katalogen. Om Claude som leverantör är aktiverad förblir röstmodeller beroende av övriga konfigurerade leverantörer.

Vad ett röstmodell bestämmer

En röstmodell bestämmer hur text uttalas och vilka möjligheter som finns. Tänk på:

  • de tillgängliga rösterna;
  • språken som en röst stöder;
  • kvaliteten och naturligheten i uttalet;
  • hur instruktioner om tempo, ton, accent och uttal följs.

Röster och språk

Tillgängliga röster varierar mellan leverantörer. AI-Corporate visar vid text till ljud endast röster som passar för valt språk, eller röster som passar för flera språk. Om en röst är avsedd endast för vissa språk anges det språket vid rösten.

OpenAI och Google stödjer de flesta språken i katalogen. Voxtral Mini TTS stöder ett mindre antal språk, inklusive svenska, engelska, franska, spanska, portugisiska, italienska, tyska, hindi och arabiska.

Systeemprompt

Vid text till ljud kan systeemprompten användas för att styra uttal och stil. Du kan till exempel ange att svenska ska låta naturligt, att termer som AI, AI-Corporate, ChatGPT och OpenAI får uttalas på engelska, eller att Claude ska låta som ett franskt namn.

Preferenser

Användare kan spara sina text-till-ljud-inställningar som personliga preferenser. Så behöver modell, språk, röst och uttalsinstruktioner inte väljas varje gång igen.