چت با اسناد

گام بعدی در پردازش اطلاعات

به جای تکیه بر دیتابیس‌های عمومی و دانش عمومی، «چت با اسناد» پاسخ‌ها و تحلیل‌های زمینه-محور بر اساس منابع داخلی مطمئن شما ایجاد می‌کند. اسناد خود را بارگذاری کنید و از این اسناد به عنوان منبع برای پاسخ به سوالات در چت استفاده کنید!

حل محدودیت‌های داده

اگر از یک مدل زبانی سوالی بپرسید، به دیتاستی که مدل روی آن آموزش دیده است وابسته‌اید. این معمولاً اطلاعاتی است که از اینترنت جمع‌آوری شده است. منابع غیرعمومی احتمالاً در این دیتاست وجود ندارند. با استفاده از اسناد شما به عنوان منبع برای چت، مطمئن می‌شوید مدل به اطلاعاتی که برای پاسخ به سوالات شما نیاز دارید دسترسی دارد.

امکانات با اسناد شما

می‌توانید سوالاتی درباره اسناد خود مطرح کنید مانند بیان نکات اصلی یک سند یا خلاصه‌کردن سند. همچنین می‌توانید تحلیل‌های مشخصی را با استفاده از دیتاست خود به وسیله مدل زبان اجرا کنید.

معایب چت مبتنی بر اسناد

بارگذاری اسناد و پردازش آنها گام‌های اضافی هستند که وقتی بدون زمینه اطلاعات خاص هم می‌توانید پاسخ مناسب دریافت کنید، لازم به انجام آن نیست. همچنین پاسخ‌گویی طول می‌کشد چون باید ابتدا اطلاعات لازم از سند استخراج شود قبل از اینکه درخواست به مدل زبان ارسال گردد.

پشت صحنه چت با اسناد

متن از اسنادی که شما بارگذاری می‌کنید از سند استخراج شده و به قطعاتی تقسیم می‌شود. این قطعات اندازه معینی از کاراکتر دارند (1024 کاراکتر) و یک همپوشانی هم در نظر گرفته می‌شود (128 کاراکتر) بین قطعات. هر قطعه به صورت یک بردار در پایگاه داده برداری ذخیره می‌شود. در هر پرس‌وجو از این داده‌ها براساس شباهت به سوال انتخابی انجام می‌شود.

فرایند انتخاب قطعات سند

قطعات متن قبلاً به بردارها تبدیل شده‌اند. بردارها ابعاد متعددی دارند که بیانگر این است که چقدر این متن با متن‌های دیگر «مشابه» است. مانند سیستم رنگ RGB. رنگی با مقدار RGB مشابه، رنگی مشابه است اما تفاوت دارد. پایگاه داده بردار به ما اجازه می‌دهد تا قطعات متن را به طور مرتب و با فیلترکردن بر اساس سوالی که مطرح می‌شود بازیابی کنیم. ما حداکثر ۱۰۰ قطعه متن با هر قطعه ۱۱۲۴ کاراکتر را برای ارسال با سوال انتخاب می‌کنیم.

مدل‌های مناسب برای چت مبتنی بر اسناد

ما مدل‌هایی با پنجره کانتکست بزرگ انتخاب کرده‌ایم تا امکان چت با اسناد فراهم شود. ما می‌خواهیم حداکثر ۱۰۰ قطعه متن با هر قطعه ۱۱۲۴ کاراکتر را بتوانیم همراه با سوال ارسال کنیم. این بیش از ۱۰۰٬۰۰۰ کاراکتر است. برای این کار از ترجیحاً یک مدل زبان با کیفیت از کاتالوگ مرکزی مدل‌ها استفاده کنید.

مدل‌های مناسب

مدل‌های مناسب مدل‌هایی با فضای کانتکست کافی و تحلیل سند خوب هستند، مانند مدل‌های با کیفیت بالا از OpenAI، Claude، Google یا AI اتحادیه اروپا.

انتخاب یک یا چند سند

شما می‌توانید حالت فایل را با کلیک روی گیره در سمت راست نوار سوال فعال کنید. شما تا ۱۰ سند را می‌توانید برای چت انتخاب کنید.

مدل‌های زبان مناسب

وقتی شروع به چت با اسناد می‌کنید، بررسی می‌شود که آیا مدل زبان برای چت با اسناد مناسب است یا نه. اگر مناسب نباشد، به‌طور خودکار مدلی مناسب از کاتالوگ جاری انتخاب می‌شود.

شما با این اسناد تا زمانی که حالت فایل روشن است، چت می‌کنید.

پردازش به ازای هر سند

علاوه بر چت با اسناد، AI-Corporate امکان اعمال یک پرامپ جداگانه بر هر سند و دریافت پاسخ‌های فردی برای هر سند را نیز دارد. این قابلیت «پردازش به ازای هر سند» نام دارد.

پردازش به ازای هر سند

این قابلیت می‌تواند با «چت با فایل‌ها» ترکیب شود.

سناریو ممکن

یک مثال عملی از استفاده از «پردازش به ازای هر سند»:

یک سند مرجع را بارگذاری کنید (مثلاً یک الگوی قرارداد) و آن را در کنار چت با فایل‌ها فعال کنید.
چندین سند که باید تحلیل شوند را بارگذاری کرده و در کنار «پردازش به ازای هر سند» فعال کنید.
یک پرامپ بنویسید که به صورت فردی بر تمام اسناد اعمال می‌شود.

به این ترتیب می‌توانید مثلاً تمام قراردادها را به طور خودکار با توجه به الگوی مرجع تحلیل کنید.

حداکثر تعداد اسناد

برای قابلیت «پردازش به ازای هر سند» حداکثر ۳۰ سند مجاز است.

فرمت‌های پشتیبانی‌شده اسناد

AI-Corporate فرمت‌های مختلفی را برای چت با اسناد پشتیبانی می‌کند:

اسناد PDF با پسوند .pdf
اسناد Word با پسوند .docx
اسناد CSV با پسوند .csv
اسناد JSON با پسوند .json
اسناد متنی با پسوند .txt
فایل‌های صوتی و تصویری با پسوندهای 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' یا 'webm'

گفت‌وگو با فایل‌های صوتی یا ویدیویی

AI-School ابتدا فایل‌های صوتی و ویدیویی را با ارائه‌دهنده رونویسی تنظیم‌شده به متن تبدیل می‌کند. در گفت‌وگوها، نتیجه می‌تواند بازه‌های زمانی و برچسب گوینده داشته باشد. سپس یک مدل متنی مناسب می‌تواند نشانه‌گذاری، املا، برچسب‌های گوینده و واژه‌های تخصصی را اصلاح کند. فایل‌های طولانی به دلیل محدودیت‌های ارائه‌دهنده و مدل ممکن است متفاوت از فایل‌های کوتاه پردازش شوند.

حل محدودیت‌های داده​

امکانات با اسناد شما​

معایب چت مبتنی بر اسناد​

پشت صحنه چت با اسناد​

فرایند انتخاب قطعات سند​

مدل‌های مناسب برای چت مبتنی بر اسناد​

انتخاب یک یا چند سند​

پردازش به ازای هر سند​

سناریو ممکن​

فرمت‌های پشتیبانی‌شده اسناد​

گفت‌وگو با فایل‌های صوتی یا ویدیویی​

حل محدودیت‌های داده

امکانات با اسناد شما

معایب چت مبتنی بر اسناد

پشت صحنه چت با اسناد

فرایند انتخاب قطعات سند

مدل‌های مناسب برای چت مبتنی بر اسناد

انتخاب یک یا چند سند

پردازش به ازای هر سند

سناریو ممکن

فرمت‌های پشتیبانی‌شده اسناد

گفت‌وگو با فایل‌های صوتی یا ویدیویی