برو به محتوای اصلی

مدل‌های تبدیل متن به گفتار

AI-Corporate از مدل‌های تبدیل متن به گفتار پشتیبانی می‌کند که متن را به صدا تبدیل می‌کند. این مدل‌ها در داشبورد برای متن به صدای صوتی و در قابلیت‌هایی که از گفتار از یک چت تولید می‌شود، استفاده می‌شوند.

فهرست فعلی

ارائه‌دهندهمدلیادداشت
OpenAIGPT-4o mini TTSگفتار با صدای طبیعی و کنترل خوب روی لحن و سبک.
GoogleGemini 3.1 Flash TTS Previewمدل گفتار جدید Gemini با کنترل دقیق روی سبک، سرعت و لحن.
European AIVoxtral Mini TTSگفتار مبتنی بر متن-به-گفتار اروپایی با Voxtral Mini.

claude در کاتالوگ مدل متن-به-گفتار ندارد. اگر Claude به عنوان ارائه‌دهنده فعال باشد، مدل‌های گفتار بسته به سایر ارائه‌دهندگان پیکربندی‌شده باقی می‌مانند.

یک مدل گفتار چه چیزی را مشخص می‌کند

یک مدل گفتار مشخص می‌کند چگونه متن تلفظ می‌شود و چه امکاناتی در دسترس است. به‌عنوان مثال:

  • صداهای در دسترس;
  • زبان‌هایی که یک صدا پشتیبانی می‌کند;
  • کیفیت و طبیعی بودن تلفظ;
  • طریقه پیاده‌سازی دستورات در مورد سرعت، لحن، لهجه و تلفظ.

صداآوا و زبان‌ها

صداهای در دسترس بنا به ارائه‌دهنده متفاوت است. AI-Corporate در متن به صوت تنها صداهایی را نمایش می‌دهد که با زبان انتخاب‌شده مطابقت دارند یا صداهایی که برای چند زبان مناسب هستند. اگر صدایی فقط برای زبان‌های خاصی طراحی شده باشد، آن زبان در کنار صدای مربوطه ذکر می‌شود.

OpenAI و Google بیشتر زبان‌های فهرست را پشتیبانی می‌کنند. Voxtral Mini TTS مجموعه کوچکتری از زبان‌ها را پشتیبانی می‌کند، از جمله هلندی، انگلیسی، فرانسوی، اسپانیایی، پرتغالی، ایتالیایی، آلمانی، هندی و عربی.

سیستم-پرومت (سیت-پرومت)

در تبدیل متن به صوت می‌توان از سیستـم-پرومت برای هدایت تلفظ و سبک استفاده کرد. به‌عنوان مثال می‌توانید مشخص کنید که به زبان هلندی باید به طور طبیعی به نظر برسد، یا اسرار عباراتی مانند AI، AI-Corporate، ChatGPT و OpenAI با تلفظ انگلیسی گفته شوند، یا اینکه Claude به عنوان نام فرانسوی تلفظ شود.

ترجیحات

کاربران می‌توانند تنظیمات متن به صوت خود را به‌عنوان ترجیح شخصی ذخیره کنند. بنابراین لازم نیست برای هر بار، مدل، زبان، صدا و دستور تلفظ را دوباره انتخاب کرد.