Aller au contenu principal

Chatting avec des documents

La prochaine étape du traitement de l'information

Au lieu de se fier à des ensembles de données publiques et à des connaissances générales, "Chat avec des documents" génère des réponses et des analyses contextuelles basées sur vos sources internes de confiance. Téléchargez vos documents et utilisez-les comme base pour répondre aux questions dans le chat !

Résolution des limites des données

Lorsque vous posez des questions à un modèle de langage, vous dépendez du jeu de données avec lequel le modèle a été entraîné. Il s'agit généralement d'informations provenant d'internet. Les sources non publiques ne sont probablement pas présentes dans ce jeu de données. En utilisant vos documents comme source pour le chat, vous vous assurez que le modèle dispose des informations dont vous avez besoin pour répondre à vos questions.

Possibilités avec vos documents

Vous pouvez poser des questions sur vos documents, comme énumérer les points clés d'un document ou le résumer. Vous pouvez également demander au modèle de langage d'effectuer des analyses spécifiques à l'aide de votre propre jeu de données.

Inconvénients du chat basé sur des documents

Le téléchargement et le traitement des documents sont des étapes supplémentaires que vous n'avez pas à franchir si vous pouvez obtenir des réponses satisfaisantes sans le contexte d'informations spécifiques. De plus, la génération d'une réponse prend plus de temps car il faut d'abord extraire les informations nécessaires du document avant d'envoyer la requête au modèle de langage.

Coulisses du chat avec des documents

Le texte des documents que vous téléchargez est extrait et divisé en morceaux. Ces morceaux ont un nombre fixe de caractères (1024 caractères) et nous avons également défini un chevauchement (128 caractères) entre les morceaux. Chaque morceau de texte est stocké sous forme de vecteur dans une base de données vectorielle. Pour chaque question, une sélection est effectuée à partir de ces données en fonction de la similarité avec la question posée.

Processus de sélection des fragments de document

Les morceaux de texte ont déjà été convertis en vecteurs. Les vecteurs ont plusieurs dimensions qui indiquent à quel point ce texte est "similaire" à un autre texte. Pensez au système de couleurs RVB. Une couleur avec une valeur RVB similaire est également une couleur similaire mais légèrement différente. La base de données vectorielle nous permet donc de récupérer les morceaux de texte classés et filtrés en fonction de la question posée. Nous sélectionnons au maximum 100 morceaux de texte de 1024 caractères à envoyer avec la question.

Modèles adaptés au chat basé sur des documents

Nous avons sélectionné des modèles avec une grande fenêtre de contexte pour permettre le chat avec des documents. Nous voulons pouvoir envoyer jusqu'à 100 morceaux de texte de 1024 caractères. Cela représente plus de 100 000 caractères. Des modèles comme GPT 3.5 ne peuvent pas traiter autant de texte. C'est pourquoi nous recommandons d'utiliser cette fonctionnalité uniquement avec GPT-4.1, Gemini 2.5 Pro et Claude 4.0.

Modèles adaptés

Les modèles adaptés sont GPT-4.1, Gemini 2.5 Pro et Claude 4.0.

Sélectionner un ou plusieurs documents

Vous pouvez activer le mode fichier en cliquant sur le trombone à droite de la barre de question. Vous pouvez choisir jusqu'à 10 fichiers avec lesquels discuter.

Modèles de langage adaptés

Lorsque vous commencez à discuter avec des documents, il est vérifié si le modèle de langage est adapté au chat avec des documents. Si ce n'est pas le cas, GPT-4o est automatiquement sélectionné.

Vous discuterez avec ces documents tant que le mode fichier reste activé.

Types de fichiers pris en charge

AI-Corporate prend en charge différents types de fichiers pour le chat avec des documents :

  • Fichiers PDF se terminant par .pdf
  • Fichiers Word se terminant par .docx
  • Fichiers CSV se terminant par .csv
  • Fichiers JSON se terminant par .json
  • Fichiers texte se terminant par .txt
  • Fichiers audio et vidéo avec les extensions 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' ou 'webm'

Chat avec des fichiers audio ou vidéo

Pour discuter avec des fichiers audio ou vidéo, AI-Corporate utilise le modèle Whisper d'OpenAI.

Après l'extraction du texte, nous le passons à GPT-4o pour vérifier et corriger la ponctuation et l'orthographe.

La procédure est ensuite la même que pour l'extraction à partir de documents PDF ou Word.

Whisper a une limite de 25 Mo par fichier audio ou vidéo. Nous appliquons donc la même limite lors du téléchargement de nouveaux fichiers.

Fichiers que vous pouvez télécharger à titre d'exemple

Exemple de rapport d'entreprise Exemple de plan de projet Document historique volumineux