Чат с документами

Следующий шаг в обработке информации

Вместо того чтобы полагаться на общедоступные наборы данных и общие знания, «Чат с документами» генерирует контекстно-специфические ответы и анализы на основе ваших доверенных внутренних источников. Загрузите ваши документы и используйте их в качестве основы для ответов на вопросы в чате!

Устранение ограничений данных

Если вы задаёте вопросы языковой модели, вы зависите от набора данных, на котором обучена модель. Обычно это информация с интернета. Нейдоступные источники, вероятно, не входят в этот набор данных. Используя ваши документы в качестве источника для чата, вы точно знаете, что у модели есть та информация, которая вам нужна для ответа на ваши вопросы.

Возможности с вашими документами

Вы можете задавать вопросы по вашим документам, например перечислять главные пункты документа или суммировать документ. Также можно поручать языковой модели выполнить конкретные анализы с использованием вашего собственного набора данных.

Недостатки документно-ориентированного чата

Загрузка документов и их обработка — это дополнительные шаги, которые можно пропустить, если можно получить нормальный ответ без контекста специфической информации. Также ответ генерируется дольше, потому что сначала нужно извлечь необходимые данные из документа, прежде чем запрос отправится языковой модели.

За кулисами чата с документами

Текст из загруженных вами документов выделяется и делится на части. У этих частей заданное количество символов (1024 символа) и установлен перекрытие (128 символов) между частями. Каждую порцию текста сохраняют как вектор в векторной базе данных. При каждом запросе из этих данных выбирают, основываясь на схожести с заданным вопросом.

Процесс отбора фрагментов документа

Фрагменты текста уже преобразованы в векторы. Векторы имеют несколько измерений, которые указывают, насколько «похож» этот текст на другой текст. Подобно системе RGB. Цвет с близким RGB-значением — это близкий цвет, но чуть иной. Векторная база данных позволяет извлекать фрагменты текста в ранжированном и отфильтрованном виде на основе вопроса. Мы выбираем максимум 100 фрагментов текста по 1024 символа, чтобы отправить их вместе с вопросом.

Подходящие модели для документно-ориентированного чата

Мы выбрали модели с большим контекстным окном, чтобы позволить чатиться с документами. Мы хотим передавать максимум 100 фрагментов текста по 1024 символа. Это более 100 000 символов. Предпочтительно используйте высококачественную языковую модель из центрального каталога моделей.

Подходящие модели

Подходящие модели — это модели с достаточным контекстным окном и хорошим анализом документов, такие как высококачественные модели от OpenAI, Claude, Google или европейские ИИ.

Выбор одного или нескольких документов

Вы можете включить режим файлов, нажав на скрепку справа от панели вопросов. Вы можете выбрать до 10 файлов для чата.

Подходящие языковые модели

В момент начала чата с документами проводится проверка, подходит ли языковая модель для чатирования с документами. Если нет, автоматически будет выбран подходящий доступный модель из текущего каталога.

Вы чате с этими документами, пока режим файлов включён.

Обработка по каждому файлу

Помимо чатирования с документами, AI-Corporate также позволяет применить отдельный промпт к каждому документу и получать индивидуальные ответы. Эта функция называется Обработка по каждому файлу.

Обработка по каждому файлу

Эта функция может использоваться в сочетании с «Чат с файлами».

Возможный сценарий

Практический пример использования «Обработки по каждому файлу»:

Вы загружаете справочный документ (например, шаблон контракта) и включаете его в Чат по файлам
Вы загружаете несколько документов, которые нужно проанализировать, и включаете их в Обработку по каждому файлу
Вы формулируете промпт, который применяется ко всем файлам индивидуально

Так можно, например, автоматически анализировать все контракты на основе образца-шаблона.

Максимальное количество файлов

Существует ограничение в 30 файлов для функции «Обработка по каждому файлу».

Поддерживаемые типы файлов

AI-Corporate поддерживает различные типы файлов для чатирования с документами:

PDF файлы с расширением .pdf
Word файлы с расширением .docx
CSV файлы с расширением .csv
JSON файлы с расширением .json
Текстовые файлы с расширением .txt
Аудио и видео файлы с расширениями 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' или 'webm'

Чат с аудио- или видеофайлами

AI-School сначала транскрибирует аудио- и видеофайлы выбранным поставщиком транскрипции. В разговорах результат может содержать временные блоки и метки говорящих. Затем подходящая текстовая модель может исправить пунктуацию, орфографию, метки говорящих и специальные термины. Длинные файлы могут обрабатываться иначе из-за ограничений поставщика и модели.

Устранение ограничений данных​

Возможности с вашими документами​

Недостатки документно-ориентированного чата​

За кулисами чата с документами​

Процесс отбора фрагментов документа​

Подходящие модели для документно-ориентированного чата​

Выбор одного или нескольких документов​

Обработка по каждому файлу​

Возможный сценарий​

Поддерживаемые типы файлов​

Чат с аудио- или видеофайлами​

Устранение ограничений данных

Возможности с вашими документами

Недостатки документно-ориентированного чата

За кулисами чата с документами

Процесс отбора фрагментов документа

Подходящие модели для документно-ориентированного чата

Выбор одного или нескольких документов

Обработка по каждому файлу

Возможный сценарий

Поддерживаемые типы файлов

Чат с аудио- или видеофайлами