Перейти к основному содержимому

Чат с документами

Следующий шаг в обработке информации

Вместо того чтобы полагаться на общедоступные наборы данных и общие знания, «Чат с документами» генерирует контекстно-специфические ответы и анализы на основе ваших доверенных внутренних источников. Загрузите ваши документы и используйте их в качестве основы для ответов на вопросы в чате!

Устранение ограничений данных

Если вы задаёте вопросы языковой модели, вы зависите от набора данных, на котором обучена модель. Обычно это информация с интернета. Нейдоступные источники, вероятно, не входят в этот набор данных. Используя ваши документы в качестве источника для чата, вы точно знаете, что у модели есть та информация, которая вам нужна для ответа на ваши вопросы.

Возможности с вашими документами

Вы можете задавать вопросы по вашим документам, например перечислять главные пункты документа или суммировать документ. Также можно поручать языковой модели выполнить конкретные анализы с использованием вашего собственного набора данных.

Недостатки документно-ориентированного чата

Загрузка документов и их обработка — это дополнительные шаги, которые можно пропустить, если можно получить нормальный ответ без контекста специфической информации. Также ответ генерируется дольше, потому что сначала нужно извлечь необходимые данные из документа, прежде чем запрос отправится языковой модели.

За кулисами чата с документами

Текст из загруженных вами документов выделяется и делится на части. У этих частей заданное количество символов (1024 символа) и установлен перекрытие (128 символов) между частями. Каждую порцию текста сохраняют как вектор в векторной базе данных. При каждом запросе из этих данных выбирают, основываясь на схожести с заданным вопросом.

Процесс отбора фрагментов документа

Фрагменты текста уже преобразованы в векторы. Векторы имеют несколько измерений, которые указывают, насколько «похож» этот текст на другой текст. Подобно системе RGB. Цвет с близким RGB-значением — это близкий цвет, но чуть иной. Векторная база данных позволяет извлекать фрагменты текста в ранжированном и отфильтрованном виде на основе вопроса. Мы выбираем максимум 100 фрагментов текста по 1024 символа, чтобы отправить их вместе с вопросом.

Подходящие модели для документно-ориентированного чата

Мы выбрали модели с большим контекстным окном, чтобы позволить чатиться с документами. Мы хотим передавать максимум 100 фрагментов текста по 1024 символа. Это более 100 000 символов. Предпочтительно используйте высококачественную языковую модель из центрального каталога моделей.

Подходящие модели

Подходящие модели — это модели с достаточным контекстным окном и хорошим анализом документов, такие как высококачественные модели от OpenAI, Claude, Google или европейские ИИ.

Выбор одного или нескольких документов

Вы можете включить режим файлов, нажав на скрепку справа от панели вопросов. Вы можете выбрать до 10 файлов для чата.

Подходящие языковые модели

В момент начала чата с документами проводится проверка, подходит ли языковая модель для чатирования с документами. Если нет, автоматически будет выбран подходящий доступный модель из текущего каталога.

Вы чате с этими документами, пока режим файлов включён.

Обработка по каждому файлу

Помимо чатирования с документами, AI-Corporate также позволяет применить отдельный промпт к каждому документу и получать индивидуальные ответы. Эта функция называется Обработка по каждому файлу.

Обработка по каждому файлу

Эта функция может использоваться в сочетании с «Чат с файлами».

Возможный сценарий

Практический пример использования «Обработки по каждому файлу»:

  1. Вы загружаете справочный документ (например, шаблон контракта) и включаете его в Чат по файлам
  2. Вы загружаете несколько документов, которые нужно проанализировать, и включаете их в Обработку по каждому файлу
  3. Вы формулируете промпт, который применяется ко всем файлам индивидуально

Так можно, например, автоматически анализировать все контракты на основе образца-шаблона.

Максимальное количество файлов

Существует ограничение в 30 файлов для функции «Обработка по каждому файлу».

Поддерживаемые типы файлов

AI-Corporate поддерживает различные типы файлов для чатирования с документами:

  • PDF файлы с расширением .pdf
  • Word файлы с расширением .docx
  • CSV файлы с расширением .csv
  • JSON файлы с расширением .json
  • Текстовые файлы с расширением .txt
  • Аудио и видео файлы с расширениями 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' или 'webm'

Чат с аудио или видеоматериалами

Для чата с аудио или видеофайлами AI-Corporate использует модель Whisper от OpenAI.

После извлечения текста может использоваться подходящая модель для проверки и исправления пунктуации и орфографии.

Далее следует та же процедура, что и при извлечении из PDF или Word документов.

Whisper имеет лимит 25 МБ на аудио или видеофайл. Поэтому мы применяем тот же лимит при загрузке новых файлов.

Файлы, которые можно скачать в качестве примера

Пример бизнес-отчета Пример проектного плана Документ крупной истории

Обработать файлы и повторно использовать

Файлы, которые вы загружаете, сначала обрабатываются, прежде чем AI-Corporate сможет использовать их содержимое в чатах, помощниках и рабочих процессах. Если обработка не удалась, файл получает статус ошибки, и вы можете загрузить его заново или повторно обработать через Управление файлами.

Для PDF AI-Corporate может использовать обычный текстовый слой и, при необходимости, выполнить более детальный анализ PDF. Это полезно для отсканированных документов, заполненных форм, рукописных заметок, пометок, таблиц и визуальной информации. Большие PDF-файлы могут быть разбиты на более мелкие части во время обработки.

Когда форма или рабочий процесс запрашивает файл, вы можете загрузить новый файл или выбрать существующий через медиаданную. Файлы, добавленные через такую форму, доступны помощнику в этом чате, но не автоматически выбираются для обычных вопросов чата.

Markdown-файлы с расширением .md также поддерживаются.