Text-till-tal-modeller
AI-Corporate stöder text-to-speech-modeller som konverterar text till ljud. Dessa modeller används vid Text till ljud på instrumentpanelen och i funktioner som genererar ljud från en chat.
Nuvarande katalog
| Leverantör | Modell | Kommentar |
|---|---|---|
| OpenAI | GPT-4o mini TTS | Naturlig låter röst med bra styrning av ton och stil. |
| Gemini 3.1 Flash TTS Preview | Nytt Gemini-talmodell med exakt styrning av stil, tempo och ton. | |
| Europeisk AI | Voxtral Mini TTS | Europeisk text-till-tal baserad på Mistral Voxtral Mini. |
Claude har ingen egen text-till-talmodell i katalogen. Om Claude som leverantör är aktiverad förblir röstmodeller beroende av övriga konfigurerade leverantörer.
Vad ett röstmodell bestämmer
En röstmodell bestämmer hur text uttalas och vilka möjligheter som finns. Tänk på:
- de tillgängliga rösterna;
- språken som en röst stöder;
- kvaliteten och naturligheten i uttalet;
- hur instruktioner om tempo, ton, accent och uttal följs.
Röster och språk
Tillgängliga röster varierar mellan leverantörer. AI-Corporate visar vid text till ljud endast röster som passar för valt språk, eller röster som passar för flera språk. Om en röst är avsedd endast för vissa språk anges det språket vid rösten.
OpenAI och Google stödjer de flesta språken i katalogen. Voxtral Mini TTS stöder ett mindre antal språk, inklusive svenska, engelska, franska, spanska, portugisiska, italienska, tyska, hindi och arabiska.
Systeemprompt
Vid text till ljud kan systeemprompten användas för att styra uttal och stil. Du kan till exempel ange att svenska ska låta naturligt, att termer som AI, AI-Corporate, ChatGPT och OpenAI får uttalas på engelska, eller att Claude ska låta som ett franskt namn.
Preferenser
Användare kan spara sina text-till-ljud-inställningar som personliga preferenser. Så behöver modell, språk, röst och uttalsinstruktioner inte väljas varje gång igen.