Перейти до основного змісту

Чат з документами

Наступний крок у обробці інформації

Замість того, щоб поклакатись на публічні набори даних та загальні знання, «Чат з документами» генерує контекстуально специфічні відповіді та аналізи на основі ваших надійних внутрішніх джерел. Завантажуйте свої документи та використовуйте їх як основу для відповідання на запитання у чаті!

Розв’язання обмежень даних

Якщо ви ставите запитання мовній моделі, ви залежить від набору даних, на якому тренована модель. Зазвичай це інформація з Інтернету. Непублічні джерела, швидше за все, відсутні у цьому наборі даних. Використовуючи ваші документи як джерело для чату, ви гарантуєте, що модель має ту інформацію, яка потрібна для відповіді на ваші запитання.

Можливості з вашими документами

Ви можете ставити запитання щодо ваших документів, наприклад викладити основні пункти документа або підсумувати документ. Також ви можете доручити моделі виконати конкретні аналізи з використанням вашого власного набору даних.

Недоліки чатування за документами

Завантаження документів та їх обробка — це додаткові кроки, які не потрібні, якщо ви можете отримати в цілому відповіді без контексту конкретної інформації. Також відповідь може генеруватися довше, оскільки спочатку потрібно витягти необхідну інформацію з документа, перш ніж запит буде надісланий мовній моделі.

За лаштунками чатування з документами

Текст з завантажених вами документів вилучається з документа та розбивається на фрагменти. Ці фрагменти мають фіксовану кількість символів (1024 символи) і також встановлено перекриття (128 символів) між фрагментами. Кожна «шматок» тексту зберігається як вектор у векторній базі даних. Під час кожного запиту з цих даних відбирається відповідність за подібністю до запиту.

Процес відбору фрагментів документів

Фрагменти вже перетворені у вектори. Вектори мають кілька вимірів, що відповідають тому, наскільки «похожий» цей текст на інші тексти. Подібно до системи RGB. Колір з подібним RGB-значенням також є подібним кольором, але трошки відрізняється. Векторна база даних дозволяє витягувати фрагменти тексту у відфільтрованому та ранжованому порядку за запитом. Ми обираємо максимум 100 фрагментів тексту довжиною 1024 символи для надіслання з запитом.

Підходящі моделі для документно-орієнтованого чатування

Ми відбирали моделі з великим контекстним вікном, щоб було можливо чатувати з документами. Ми хочемо мати можливість надіслати до 100 фрагментів тексту довжиною 1024 символи. Це понад 100 000 символів. Використовуйте переважно високоякісні мовні моделі з центрального каталогу моделей.

Підходящі моделі

Підходящі моделі — це моделі з достатнім контекстним простором та гарним аналізом документів, такі як високоякісні моделі від OpenAI, Claude, Google або Європейський AI.

Вибір одного або кількох документів

Ви можете увімкнути режим файлів, клікнувши на скріпку праворуч від панелі запитів. Можете обрати до 10 файлів для чатування.

Підходящі мовні моделі

Коли ви починаєте чатувати з документами, перевіряється, чи підходить мовна модель для чатування з документами. Якщо ні — автоматично обирається відповідна модель із актуального каталогу.

Ви чатуєте із цими документами, доки режим файлів увімкнено.

Обробка за кожним файлом

Крім чатування з документами, AI-Corporate також надає можливість застосувати окремий запит до кожного документа та отримати індивідуальні відповіді. Ця функція називається Обробка за кожним файлом.

Обробка за кожним файлом

Ця функція може використовуватися у поєднанні з «Чат з файлами».

Можливий сценарій

Практичний приклад використання «Обробка за кожним файлом»:

  1. Ви завантажуєте референтний документ (наприклад шаблон контракту) і вмикаєте його в Чат із файлами
  2. Ви завантажуєте кілька документів, які потрібно проаналізувати, і вмикаєте їх у Обробку за кожним файлом
  3. Формулюєте запит, що застосовується до всіх файлів індивідуально

Так ви можете, наприклад, автоматично проаналізувати всі контракти за зразком-референсом.

Максимальна кількість файлів

Є обмеження — 30 файлів для функции «Обробка за кожним файлом».

Підтримувані типи файлів

AI-Corporate підтримує різні типи файлів для чатування з документами:

  • PDF файли з розширенням .pdf
  • Word файли з розширенням .docx
  • CSV файли з розширенням .csv
  • JSON файли з розширенням .json
  • Текстові файли з розширенням .txt
  • Аудіо та відео файли з розширеннями 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' або 'webm'

Чат із аудіо або відеофайлами

Для чатування з аудіо або відеофайлами AI-Corporate використовує модель Whisper від OpenAI.

Після виділення тексту може бути використано відповідне текстове ядро для перевірки та виправлення пунктуації і орфографії.

Після цього слідує та сама процедура, що й витяг з PDF або Word документів.

Whisper має ліміт 25 МБ на аудіо або відеофайл. Тому ми дотримуємося тієї ж ліміти й при завантаженні нових файлів.

Файли для завантаження як зразки

Прикладу bedrijfsrapport Приклад проектного плану Великий історичний документ

Обробка та повторне використання файлів

Файли, які ви завантажуєте, спочатку обробляються, перш ніж AI-Corporate зможе використати їхній зміст у чатах, помічниках та робочих процесах. Якщо обробка не вдалася, файл набуває статусу помилки, і ви можете повторно завантажити його або повторно обробити через Менеджер файлів.

У форматах PDF AI-Corporate може використовувати звичайний текстовий шар та, за потреби, виконати більш глиблений аналіз PDF. Це корисно для відсканованих документів, заповнених форм, рукописних нотаток, виділених або підкреслених виборів, таблиць та візуальної інформації. Великі PDF-файли можуть під час обробки бути розділені на менші частини.

Коли форма або робочий процес запитує файл, ви можете завантажити новий файл або вибрати існуючий через менеджер медіа. Файли, додані через таку форму, доступні асистенту у відповідному чаті, але не автоматично вибираються для звичайних чат-запитів.

Markdown-файли з розширенням .md також підтримуються.