Gå til hovedinnhold

Chat med dokumenter

Neste steg i informasjonsbehandling

I stedet for å stole på offentlige datasett og generell kunnskap, genererer "Chat med Dokumenter" kontekstspesifikke svar og analyser basert på dine betrodde interne kilder. Last opp dine dokumenter og bruk disse dokumentene som grunnlag for å besvare spørsmål i chatten!

Løsning av databegrensninger

Når du stiller spørsmål til en språkmodell, er du avhengig av datasettet modellen er trent på. Dette er vanligvis informasjon hentet fra internett. Ikke-offentlige kilder er sannsynligvis ikke i dette datasettet. Ved å bruke dokumentene dine som kilde for samtalen, vet du at modellen har informasjonen du trenger for å besvare spørsmålene dine.

Muligheter med dine dokumenter

Du kan stille spørsmål om dokumentene dine, som å nevne hovedpunktene i et dokument eller oppsummere dokumentet. Du kan også få modellen til å utføre spesifikke analyser ved hjelp av ditt eget datasett.

Ulemper med dokumentbasert chat

Opplasting av dokumenter og behandlingen av dem er ekstra trinn som du ikke trenger å gjøre hvis du kan få et tilfredsstillende svar uten konteksten av spesifikk informasjon. Det tar også lengre tid å generere et svar fordi nødvendig informasjon må hentes fra dokumentet før forespørselen kan sendes til språkmodellen.

Bak kulissene ved chat med dokumenter

Teksten fra dokumentene du laster opp, hentes ut og deles inn i biter. Disse bitene har et fast antall tegn (1024 tegn), og vi har også satt en overlapping på (128 tegn) mellom bitene. Hver tekstbit lagres som en vektor i en vektor-database. For hvert spørsmål gjøres et utvalg fra disse dataene basert på likhet med spørsmålet som stilles.

Utvelgelsesprosessen for dokumentfragmenter

Tekstbitene er allerede omgjort til vektorer. Vektorer har flere dimensjoner som indikerer hvor "lik" denne teksten er i forhold til annen tekst. Tenk på RGB-fargesystemet. En farge med lik RGB-verdi er også en lignende farge, men litt annerledes. Vektor-databasen lar oss hente tekstbiter sortert og filtrert basert på spørsmålet som stilles. Vi velger maksimalt 100 tekstbiter på 1024 tegn å sende med spørsmålet.

Passende modeller for dokumentbasert chat

Vi har valgt modeller med stort kontekstvindu slik at det er mulig å chatte med dokumenter. Vi ønsker å kunne sende maksimalt 100 biter med tekst à 1024 tegn. Dette utgjør mer enn 100 000 tegn. Bruk derfor helst en høykvalitets språkmodell fra den sentrale modell-katalogen.

Passende modeller

Passende modeller er modeller med tilstrekkelig kontekstplass og god dokumentanalyse, slik som de høykvalitetsmodellene fra OpenAI, Claude, Google eller europeisk AI.

Velg ett eller flere dokumenter

Du kan slå på filmodus ved å klikke på binderasten til høyre for spørsmålspanelet. Du kan velge opptil 10 filer å chatte med.

Passende språkmodeller

Når du begynner å chatte med dokumenter, blir det kontrollert om språkmodellen er egnet for chat med dokumenter. Hvis ikke, blir det automatisk valgt et passende modell fra den aktuelle katalogen.

Du chatter med disse dokumentene så lenge filmodus er aktiv.

Behandle per fil

I tillegg til chat med dokumenter tilbyr AI-Corporate også muligheten til å bruke en egen prompt på hvert dokument og motta individuelle svar. Denne funksjonen kalles Behandle per fil.

Behandle per fil

Denne funksjonen kan brukes i kombinasjon med "Chat med filer".

Mulig scenario

Et praktisk eksempel på bruk av "Behandle per fil":

  1. Du laster opp et referancedokument (for eksempel en kontraktsmal) og aktiverer det i Chat med filer
  2. Du laster opp flere dokumenter som skal analyseres og aktiverer dem i Behandle per fil
  3. Du formulerer en prompt som anvendes på alle filer individuelt

På denne måten kan du for eksempel få alle kontrakter analysert automatisk basert på referans mal.

Maks antall filer

Det gjelder en maksgrense på 30 filer for funksjonen "Behandle per fil".

Støttede filtyper

AI-Corporate støtter ulike filtyper for chat med dokumenter:

  • PDF-filer som ender på .pdf
  • Word-filer som ender på .docx
  • CSV-filer som ender på .csv
  • JSON-filer som ender på .json
  • Tekstfiler som ender på .txt
  • Lyd- og videofiler med utvidelsene 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' eller 'webm'

Chat med lyd eller videofiler

For å chatte med lyd- eller videofiler bruker AI-Corporate OpenAI-modellen Whisper.

Etter tekstuttrekk kan et passende tekstoppsettmodell brukes til å kontrollere og korrigere tegnsetting og stavemåte.

Deretter følger samme prosedyre som uttrekking fra PDF- eller Word-dokumenter.

Whisper har en grense på 25 MB per lyd- eller videofilsti. Vi følger derfor samme grense ved opplasting av nye filer.

Filer du kan laste ned som eksempler

Eksempel på bedriftsrapport Eksempel prosjektdokument Stort historisk dokument

Behandle og gjenbruke filer

Filer du laster opp blir først behandlet før AI-Corporate kan bruke innholdet i chatten, assistenter og arbeidsflyter. Hvis behandlingen mislykkes, får filen en feilstatus og du kan laste den opp på nytt eller få den behandlet på nytt fra Filbehandling.

For PDF-er kan AI-Corporate bruke den vanlige tekstlaget og, når det er nødvendig, utføre en mer omfattende PDF-analyse. Dette er nyttig for skannede dokumenter, utfylte skjemaer, håndskrevne notater, omrissede eller understrekte valg, tabeller og visuell informasjon. Store PDF-er kan deles opp i mindre deler under behandlingen.

Når et skjema eller en arbeidsflyt ber om en fil, kan du laste opp en ny fil eller velge en eksisterende fil via mediehåndtereren. Filer som blir lagt til via et slikt skjema, er tilgjengelige for assistenten i den aktuelle chatten, men blir ikke automatisk valgt for vanlige chat-spørsmål.

Markdown-filer med ".md"-utvidelsen støttes også.