برو به محتوای اصلی

چت با اسناد

گام بعدی در پردازش اطلاعات

به جای تکیه بر دیتابیس‌های عمومی و دانش عمومی، «چت با اسناد» پاسخ‌ها و تحلیل‌های زمینه-محور بر اساس منابع داخلی مطمئن شما ایجاد می‌کند. اسناد خود را بارگذاری کنید و از این اسناد به عنوان منبع برای پاسخ به سوالات در چت استفاده کنید!

حل محدودیت‌های داده

اگر از یک مدل زبانی سوالی بپرسید، به دیتاستی که مدل روی آن آموزش دیده است وابسته‌اید. این معمولاً اطلاعاتی است که از اینترنت جمع‌آوری شده است. منابع غیرعمومی احتمالاً در این دیتاست وجود ندارند. با استفاده از اسناد شما به عنوان منبع برای چت، مطمئن می‌شوید مدل به اطلاعاتی که برای پاسخ به سوالات شما نیاز دارید دسترسی دارد.

امکانات با اسناد شما

می‌توانید سوالاتی درباره اسناد خود مطرح کنید مانند بیان نکات اصلی یک سند یا خلاصه‌کردن سند. همچنین می‌توانید تحلیل‌های مشخصی را با استفاده از دیتاست خود به وسیله مدل زبان اجرا کنید.

معایب چت مبتنی بر اسناد

بارگذاری اسناد و پردازش آنها گام‌های اضافی هستند که وقتی بدون زمینه اطلاعات خاص هم می‌توانید پاسخ مناسب دریافت کنید، لازم به انجام آن نیست. همچنین پاسخ‌گویی طول می‌کشد چون باید ابتدا اطلاعات لازم از سند استخراج شود قبل از اینکه درخواست به مدل زبان ارسال گردد.

پشت صحنه چت با اسناد

متن از اسنادی که شما بارگذاری می‌کنید از سند استخراج شده و به قطعاتی تقسیم می‌شود. این قطعات اندازه معینی از کاراکتر دارند (1024 کاراکتر) و یک همپوشانی هم در نظر گرفته می‌شود (128 کاراکتر) بین قطعات. هر قطعه به صورت یک بردار در پایگاه داده برداری ذخیره می‌شود. در هر پرس‌وجو از این داده‌ها براساس شباهت به سوال انتخابی انجام می‌شود.

فرایند انتخاب قطعات سند

قطعات متن قبلاً به بردارها تبدیل شده‌اند. بردارها ابعاد متعددی دارند که بیانگر این است که چقدر این متن با متن‌های دیگر «مشابه» است. مانند سیستم رنگ RGB. رنگی با مقدار RGB مشابه، رنگی مشابه است اما تفاوت دارد. پایگاه داده بردار به ما اجازه می‌دهد تا قطعات متن را به طور مرتب و با فیلترکردن بر اساس سوالی که مطرح می‌شود بازیابی کنیم. ما حداکثر ۱۰۰ قطعه متن با هر قطعه ۱۱۲۴ کاراکتر را برای ارسال با سوال انتخاب می‌کنیم.

مدل‌های مناسب برای چت مبتنی بر اسناد

ما مدل‌هایی با پنجره کانتکست بزرگ انتخاب کرده‌ایم تا امکان چت با اسناد فراهم شود. ما می‌خواهیم حداکثر ۱۰۰ قطعه متن با هر قطعه ۱۱۲۴ کاراکتر را بتوانیم همراه با سوال ارسال کنیم. این بیش از ۱۰۰٬۰۰۰ کاراکتر است. برای این کار از ترجیحاً یک مدل زبان با کیفیت از کاتالوگ مرکزی مدل‌ها استفاده کنید.

مدل‌های مناسب

مدل‌های مناسب مدل‌هایی با فضای کانتکست کافی و تحلیل سند خوب هستند، مانند مدل‌های با کیفیت بالا از OpenAI، Claude، Google یا AI اتحادیه اروپا.

انتخاب یک یا چند سند

شما می‌توانید حالت فایل را با کلیک روی گیره در سمت راست نوار سوال فعال کنید. شما تا ۱۰ سند را می‌توانید برای چت انتخاب کنید.

مدل‌های زبان مناسب

وقتی شروع به چت با اسناد می‌کنید، بررسی می‌شود که آیا مدل زبان برای چت با اسناد مناسب است یا نه. اگر مناسب نباشد، به‌طور خودکار مدلی مناسب از کاتالوگ جاری انتخاب می‌شود.

شما با این اسناد تا زمانی که حالت فایل روشن است، چت می‌کنید.

پردازش به ازای هر سند

علاوه بر چت با اسناد، AI-Corporate امکان اعمال یک پرامپ جداگانه بر هر سند و دریافت پاسخ‌های فردی برای هر سند را نیز دارد. این قابلیت «پردازش به ازای هر سند» نام دارد.

پردازش به ازای هر سند

این قابلیت می‌تواند با «چت با فایل‌ها» ترکیب شود.

سناریو ممکن

یک مثال عملی از استفاده از «پردازش به ازای هر سند»:

  1. یک سند مرجع را بارگذاری کنید (مثلاً یک الگوی قرارداد) و آن را در کنار چت با فایل‌ها فعال کنید.
  2. چندین سند که باید تحلیل شوند را بارگذاری کرده و در کنار «پردازش به ازای هر سند» فعال کنید.
  3. یک پرامپ بنویسید که به صورت فردی بر تمام اسناد اعمال می‌شود.

به این ترتیب می‌توانید مثلاً تمام قراردادها را به طور خودکار با توجه به الگوی مرجع تحلیل کنید.

حداکثر تعداد اسناد

برای قابلیت «پردازش به ازای هر سند» حداکثر ۳۰ سند مجاز است.

فرمت‌های پشتیبانی‌شده اسناد

AI-Corporate فرمت‌های مختلفی را برای چت با اسناد پشتیبانی می‌کند:

  • اسناد PDF با پسوند .pdf
  • اسناد Word با پسوند .docx
  • اسناد CSV با پسوند .csv
  • اسناد JSON با پسوند .json
  • اسناد متنی با پسوند .txt
  • فایل‌های صوتی و تصویری با پسوندهای 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' یا 'webm'

چت با فایل‌های صوتی یا ویدئویی

برای چت با فایل‌های صوتی یا ویدئویی، AI-Corporate از مدل Whisper شرکت OpenAI استفاده می‌کند.

پس از استخراج متن می‌تواند از مدل متنی مناسب برای بررسی و تصحیح نشانه‌گذاری و املا استفاده شود.

سپس همان روند استخراج از اسناد PDF یا Word ادامه می‌یابد.

Whisper محدودیت ۲۵ MB برای هر فایل صوتی یا تصویری دارد. بنابراین هنگام آپلود فایل‌های جدید هم این محدودیت را اعمال می‌کنیم.

فایل‌هایی که می‌توانید به عنوان نمونه دانلود کنید

[نمونه گزارش شرکت]https://www.example.com/sample-business-report.pdf [نمونه طرح پروژه]https://www.example.com/sample-project-plan.docx [سند تاریخچه بزرگ]https://drive.google.com/file/d/15qqXddz6eyaW2-9dqVunVBndkIH5S_Up/view?usp=sharing

پردازش و استفاده مجدد از فایل‌ها

فایل‌هایی که آپلود می‌کنید ابتدا پردازش می‌شوند تا AI-Corporate بتواند محتوا را در چت‌ها، دستیارها و جریان‌های کاری استفاده کند. اگر پردازش موفق نباشد، فایل وضعیت خطا می‌گیرد و می‌توانید دوباره آپلود کرده یا از طریق مدیریت فایل دوباره پردازش کنید.

برای PDFها، AI-Corporate می‌تواند به‌طور معمول متن را استفاده کند و در صورت نیاز تحلیل PDF جامع‌تری انجام دهد. این برای اسناد اسکن‌شده، فرم‌های پرشده، یادداشت‌های دست‌نویس، گزینه‌های حاشیه‌نویسی‌شده یا زیرخط‌دار، جداول و اطلاعات بصری مفید است. فایل‌های بزرگ PDF ممکن است در حین پردازش به قطعات کوچکتری تقسیم شوند.

وقتی یک فرم یا جریان کاری به یک فایل نیاز دارد، می‌توانید یک فایل جدید آپلود کنید یا یک فایل موجود را از طریق مدیر رسانه انتخاب کنید. فایل‌هایی که از طریق چنین فرمی اضافه می‌شوند، برای دستیار در همان چت در دسترس هستند اما به طور خودکار برای سوالات چت عادی انتخاب نمی‌شوند.

فایل‌های Markdown با پسوند .md نیز پشتیبانی می‌شوند.