Ir para o conteúdo principal

Conversar com documentos

O próximo passo no processamento de informação

Em vez de confiar em conjuntos de dados públicos e conhecimento geral, "Conversar com Documentos" gera respostas e análises context-specific com base em suas fontes internas confiáveis. Carregue seus documentos e use-os como base para responder perguntas na conversa!

Resolver limitações de dados

Ao fazer perguntas a um modelo de linguagem, você depende do conjunto de dados com o qual o modelo foi treinado. Em geral, isso é informação retirada da internet. Fontes não públicas provavelmente não estarão neste conjunto. Ao usar seus documentos como fonte para a conversa, você tem certeza de que o modelo dispõe das informações de que precisa para responder às suas perguntas.

Possibilidades com seus documentos

Você pode fazer perguntas sobre seus documentos, como listar os pontos principais de um documento ou resumir o documento. Também pode solicitar análises específicas ao modelo de linguagem utilizando seu próprio conjunto de dados.

Desvantagens de conversar com base em documentos

Carregar documentos e processá-los envolve etapas adicionais que você não precisa realizar se puder obter respostas boas sem o contexto de informações específicas. Além disso, pode levar mais tempo para gerar uma resposta, pois as informações necessárias do documento precisam ser extraídas antes de a solicitação ser enviada ao modelo de linguagem.

Por trás das cenas do chat com documentos

O texto dos documentos que você carrega é extraído do documento e dividido em trechos. Esses trechos têm um número fixo de caracteres (1024 caracteres) e também definimos uma sobreposição (128 caracteres) entre os trechos. Cada pedaço de texto é armazenado como um vetor em um banco de dados de vetores. A cada pergunta, selecionamos com base na similaridade com a pergunta os dados relevantes.

Processo de seleção de fragmentos de documento

Os trechos de texto já foram convertidos em vetores. Vetores têm várias dimensões que indicam o quão “similar” esse texto é a outro texto. Pense no sistema de cores RGB. Uma cor com valor RGB semelhante também é uma cor semelhante, apenas diferente. O banco de vetores nos permite recuperar os trechos de texto de forma ordenada e filtrada com base na pergunta feita. Selecionamos no máximo 100 trechos de texto de 1024 caracteres para enviar junto com a pergunta.

Modelos adequados para chat baseado em documentos

Selecionamos modelos com um grande janela de contexto para permitir conversar com documentos. Queremos poder enviar no máximo 100 trechos de 1024 caracteres. Isso equivale a mais de 100.000 caracteres. Use, preferencialmente, um modelo de linguagem de alta qualidade a partir do catálogo central de modelos.

Modelos Adequados

Modelos adequados são modelos com espaço de contexto suficiente e boa análise de documentos, como os modelos de alta qualidade da OpenAI, Claude, Google ou IA Europeia.

Selecione um ou mais documentos

Você pode ativar o modo de arquivo clicando no clipe no canto direito da barra de perguntas. Pode escolher até 10 arquivos para conversar.

Modelos de linguagem adequados

Quando começar a conversar com documentos, verificamos se o modelo de linguagem é adequado para chat com documentos. Se não for, um modelo adequado é automaticamente selecionado a partir do catálogo atual.

Você conversa com esses documentos enquanto o modo de arquivo estiver ativo.

Processar por arquivo

Além de conversar com documentos, a AI-Corporate também oferece a opção de aplicar um prompt separadamente a cada documento e receber respostas individuais. Essa função é chamada de Processar por arquivo.

Processar por arquivo

Essa função pode ser usada em conjunto com "Conversar com arquivos".

Cenário possível

Um exemplo prático de uso de "Processar por arquivo":

  1. Você carrega um documento de referência (por exemplo, um modelo de contrato) e o habilita em Conversa com arquivos
  2. Você carrega vários documentos que precisam ser analisados e os habilita em Processar por arquivo
  3. Você formula um prompt, que é aplicado a todos os arquivos individualmente

Dessa forma, você pode, por exemplo, deixar todos os contratos analisados automaticamente com base no modelo de referência.

Número máximo de arquivos

Existe um limite máximo de 30 arquivos para a função "Processar por arquivo".

Tipos de arquivo suportados

A AI-Corporate suporta diferentes tipos de arquivo para conversar com documentos:

  • Arquivos PDF correspondentes a .pdf
  • Arquivos Word correspondentes a .docx
  • Arquivos CSV correspondentes a .csv
  • Arquivos JSON correspondentes a .json
  • Arquivos de texto correspondentes a .txt
  • Arquivos de áudio e vídeo com as extensões 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' ou 'webm'

Conversar com áudio ou vídeo

Para conversar com arquivos de áudio ou vídeo, a AI-Corporate usa o modelo Whisper da OpenAI.

Após a extração de texto, pode-se usar um modelo de texto adequado para verificar e corrigir pontuação e ortografia.

Em seguida, segue o mesmo procedimento de extração de PDFs ou documentos Word.

Whisper tem um limite de 25 MB por arquivo de áudio ou vídeo. Mantemos, portanto, o mesmo limite ao carregar novos arquivos.

Arquivos que você pode baixar de exemplo

Exemplo de relatório empresarial Exemplo de plano de projeto Documento de histórico grande

Processar e reutilizar arquivos

Arquivos que você carrega são processados antes que a AI-Corporate possa usar seu conteúdo em conversas, assistentes e fluxos de trabalho. Se o processamento falhar, o arquivo recebe um status de erro e você pode carregá-lo novamente ou processá-lo novamente a partir da Gestão de Arquivos.

Para PDFs, a AI-Corporate pode usar a camada de texto comum e, quando necessário, realizar uma análise de PDF mais abrangente. Isso é útil para documentos digitalizados, formulários preenchidos, notas manuscritas, escolhas circuladas ou sublinhadas, tabelas e informações visuais. PDFs grandes podem ser divididos em partes durante o processamento.

Quando um formulário ou fluxo de trabalho solicita um arquivo, você pode carregar um novo arquivo ou escolher um existente por meio do gerenciador de mídia. Arquivos adicionados por meio de tal formulário ficam disponíveis para a assistente naquela conversa, mas não são automaticamente selecionados para perguntas de chat comuns.

Arquivos Markdown com a extensão .md também são suportados.