跳到主要内容

Chat met documenten

De volgende stap in informatieverwerking

In plaats van te vertrouwen op openbare datasets en algemene kennis, genereert "Chat met Documenten" context-specifieke antwoorden en analyses op basis van jouw vertrouwde interne bronnen. Upload jouw documenten en gebruik deze documenten als basis voor het beantwoorden van vragen in de chat!

Oplossen van gegevensbeperkingen

Als je vragen stelt aan een taalmodel ben je afhankelijk van de dataset waarmee het model is getraind. Dit is over het algemeen informatie die van het internet is gehaald. Niet-openbare bronnen staan waarschijnlijk niet in deze dataset. Door jouw documenten als bron voor de chat te gebruiken, weet je zeker dat het model over de informatie beschikt die jij nodig hebt voor het beantwoorden van jouw vragen.

Mogelijkheden met jouw documenten

Je kunt vragen stellen over jouw documenten zoals het opnoemen van de hoofdpunten van een document of het samenvatten van het document. Ook kun je specifieke analyses laten uitvoeren door het taalmodel met behulp van jouw eigen dataset.

Nadelen van documentgebaseerd chatten

Het uploaden van documenten en het verwerken hiervan zijn extra stappen die je niet hoeft te zetten als je ook zonder de context van specifieke informatie prima antwoord kunt krijgen. Ook duurt het langer om een antwoord te genereren omdat er eerst de benodigde informatie uit het document moet worden opgehaald voordat het verzoek naar het taalmodel kan worden gestuurd.

Achter de schermen van chatten met documenten

De tekst uit de documenten die jij uploadt, wordt uit het document gehaald en opgedeeld in stukken. Deze stukken hebben een vast aantal tekens (1024 tekens) en we hebben ook een overlap ingesteld (128 tekens) tussen de stukken. Elk brokje tekst wordt opgeslagen als een vector in een vector database. Bij elke vraag wordt uit deze gegevens een selectie gemaakt op basis van gelijkenis met de vraag die wordt gesteld.

Selectieproces van documentfragmenten

De stukjes tekst zijn al omgezet in vectoren. Vectoren hebben meerdere dimensies die aangeven hoe “gelijk” deze tekst is aan andere tekst. Denk aan het RGB kleurensysteem. Een kleur met een vergelijkbare RGB waarde is ook een vergelijkbare kleur maar net anders. De vector database stelt ons dus in staat om de stukken tekst gerangschikt en gefilterd op te halen op basis van de vraag die wordt gesteld. We selecteren maximaal 100 stukken tekst van 1024 tekens om mee te sturen met de vraag.

Geschikte modellen voor documentgebaseerd chatten

We hebben modellen geselecteerd met een groot contextvenster om het mogelijk te maken om te chatten met documenten. We willen maximaal 100 stukken tekst van 1024 tekens mee kunnen sturen. Dit zijn meer dan 100.000 tekens. Gebruik hiervoor bij voorkeur een hoogwaardig taalmodel uit de centrale modelcatalogus.

Geschikte modellen

Geschikte modellen zijn modellen met voldoende contextruimte en goede documentanalyse, zoals de hoge-kwaliteitmodellen van OpenAI, Claude, Google of Europese AI.

Selecteer een of meerdere documenten

Je kunt de bestandsmodus aanzetten door op de paperclip te klikken aan de rechterkant van de vraagbalk. Je kunt dat tot 10 bestanden kiezen om mee te chatten.

Geschikte taalmodellen

Op het moment dat je gaat chatten met documenten, wordt gecontroleerd of het taalmodel geschikt is voor chatten met documenten. Als dit niet het geval is, dan wordt automatisch een geschikt model uit de actuele catalogus geselecteerd.

Je chat met deze documenten zolang de bestandsmodus aanstaan.

Per bestand verwerken

Naast het chatten met documenten, biedt AI-Corporate ook de mogelijkheid om een prompt apart toe te passen op elk document en individuele antwoorden te ontvangen. Deze functie heet Per bestand verwerken.

Per bestand verwerken

Deze functie kan worden gebruikt in combinatie met "Chat met bestanden".

Mogelijk scenario

Een praktisch voorbeeld van het gebruik van "Per bestand verwerken":

  1. Je uploadt een referentiedocument (bijvoorbeeld een contractsjabloon) en zet deze aan bij Chat met bestanden
  2. Je uploadt meerdere documenten die geanalyseerd moeten worden en zet deze aan bij Per bestand verwerken
  3. Je formuleert een prompt, die toegepast wordt op alle bestanden individueel van elkaar

Op deze manier kun je bijvoorbeeld alle contracten automatisch laten analyseren op basis van het referentiesjabloon.

Maximum aantal bestanden

Er geldt een maximum van 30 bestanden voor de functie "Per bestand verwerken".

Ondersteunde bestandstypen

AI-Corporate ondersteunt verschillende bestandstypen voor het chatten met documenten:

  • PDF bestanden uitkomend op .pdf
  • Word bestanden uitkomend op .docx
  • CSV bestanden uitkomend op .csv
  • JSON bestanden uitkomend op .json
  • Tekst bestanden uitkomend op .txt
  • Audio en video bestanden met de extensies 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' of 'webm'

Chatten met audio of video bestanden

Voor het chatten met audio of video bestanden, maakt AI-Corporate gebruik van OpenAI's model Whisper.

Na tekstextractie kan een geschikt tekstmodel worden gebruikt om interpunctie en spelling te controleren en te corrigeren.

Daarna volgt dezelfde procedure als extractie uit PDF of Word documenten.

Whisper heeft een limiet van 25 MB per audio of video bestand. Wij hanteren daarom dezelfde limiet bij het uploaden van nieuwe bestanden.

Bestanden die je als voorbeeld kunt downloaden

Voorbeeld bedrijfsrapport Voorbeeld projectplan Groot geschiedenis document

Bestanden verwerken en hergebruiken

Bestanden die je uploadt worden eerst verwerkt voordat AI-Corporate de inhoud kan gebruiken in chats, assistenten en workflows. Als de verwerking mislukt, krijgt het bestand een foutstatus en kun je het opnieuw uploaden of opnieuw laten verwerken vanuit Bestandsbeheer.

Bij PDF's kan AI-Corporate de gewone tekstlaag gebruiken en, wanneer dat nodig is, een uitgebreidere PDF-analyse uitvoeren. Dit is nuttig bij gescande documenten, ingevulde formulieren, handgeschreven notities, omcirkelde of onderstreepte keuzes, tabellen en visuele informatie. Grote PDF's kunnen tijdens de verwerking worden opgesplitst in kleinere delen.

Wanneer een formulier of workflow om een bestand vraagt, kun je een nieuw bestand uploaden of een bestaand bestand kiezen via de mediabeheerder. Bestanden die via zo'n formulier worden toegevoegd, zijn beschikbaar voor de assistent in die chat, maar worden niet automatisch geselecteerd voor gewone chatvragen.

Markdown-bestanden met de extensie .md worden ook ondersteund.