Gå till huvudinnehållet

Chat med dokument

Nästa steg i informationsbehandling

Istället för att förlita sig på offentliga dataset och allmän kunskap genererar "Chat med Dokument" kontextspecifika svar och analyser baserade på dina betrodda interna källor. Ladda upp dina dokument och använd dessa dokument som grund för att svara på frågor i chatten!

Lösning av databegränsningar

Om du ställer frågor till en språkmodell är du beroende av det dataset modellen är tränad på. Detta är generellt information som har hämtats från internet. Icke-offentliga källor finns troligen inte i detta dataset. Genom att använda dina dokument som källa för chatten kan du vara säker på att modellen har den information du behöver för att besvara dina frågor.

Möjligheter med dina dokument

Du kan ställa frågor om dina dokument, som att nämna huvudpunkterna i ett dokument eller sammanfatta dokumentet. Du kan också låta språkmodellen utföra specifika analyser med hjälp av din egen dataset.

Nackdelar med dokumentbaserad chat

Att ladda upp dokument och bearbeta dem är extra steg som du inte behöver om du trots allt kan få ett bra svar utan kontext av specifik information. Det tar också längre tid att generera ett svar eftersom den nödvändiga informationen från dokumentet först måste hämtas innan begäran till språkmodellen skickas.

Bakom kulisserna när man chattrar med dokument

Texten från de dokument du laddar upp extraheras från dokumentet och delas upp i bitar. Dessa bitar har ett fast antal tecken (1024 tecken) och vi har också inställt ett överlapp (128 tecken) mellan bitarna. Varje textstycke lagras som en vektor i en vektor-databas. Vid varje fråga görs ett urval från denna data baserat på likhet med den fråga som ställs.

Urvalsprocessen av dokumentfragment

Textstyckena är redan omvandlade till vektorer. Vektorer har flera dimensioner som anger hur “lika” denna text är med annan text. Tänk på RGB-färgmodellen. En färg med liknande RGB-värde är också en lik färg men lite annorlunda. Vektor-databasen gör det möjligt för oss att hämta bitarna av text i ordnade och filtrerade ordningsföljder baserat på frågan som ställs. Vi väljer upp till 100 textstycken på 1024 tecken att skicka med frågan.

Passande modeller för dokumentbaserad chat

Vi har valt modeller med ett stort kontextfönster för att möjliggöra chat med dokument. Vi vill kunna skicka upp till 100 bitar text på 1024 tecken vardera. Detta är mer än 100 000 tecken. Använd då gärna en högkvalitativ språkmodell från central modellkatalog.

Passande modeller

Passande modeller är modeller med tillräckligt kontextutrymme och bra dokumentanalys, såsom kvalitetsmodeller från OpenAI, Claude, Google eller European AI.

Välj ett eller flera dokument

Du kan slå på fil-läge genom att klicka på gem-ikonen till höger i frågefältet. Du kan välja upp till 10 filer att chatta med.

Passande språkmodeller

När du börjar chatta med dokument kontrolleras det om språkmodellen är lämplig för dokumentbaserad chat. Om detta inte är fallet kommer automatiskt en lämplig modell från den aktuella katalogen att väljas.

Du chattar med dessa dokument så länge fil-läget är påslaget.

Behandla per fil

Förutom chat med dokument erbjuder AI-Corporate även möjlighet att tillämpa en prompt separat på varje dokument och få individuella svar. Denna funktion kallas Behandla per fil.

Behandla per fil

Denna funktion kan användas i kombination med "Chat med filer".

Möjligt scenario

Ett praktiskt exempel på användning av "Behandla per fil":

  1. Du laddar upp ett referensdokument (till exempel en kontraktsmall) och aktiverar det i Chat med filer
  2. Du laddar upp flera dokument som ska analyseras och aktiverar det under Behandla per fil
  3. Du formulerar en prompt som appliceras på alla filer individuellt

På detta sätt kan du till exempel låta alla kontrakt automatiskt analyseras mot referensmallen.

Max antal filer

Det gäller ett maximum på 30 filer för funktionen "Behandla per fil".

Stödda filtyper

AI-Corporate stöder olika filtyper för chat med dokument:

  • PDF-filer som slutar på .pdf
  • Word-filer som slutar på .docx
  • CSV-filer som slutar på .csv
  • JSON-filer som slutar på .json
  • Textfiler som slutar på .txt
  • Ljud- och videofiler med extensions 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' eller 'webm'

Chat med ljud- eller videofiler

För chat med ljud- eller videofiler använder AI-Corporate OpenAI:s Whisper-modell.

Efter textutvinning kan en lämplig textmodell användas för att kontrollera och korrigera interpunktion och stavning.

Därefter följer samma procedur som utdrag från PDF- eller Word-dokument.

Whisper har en begränsning på 25 MB per ljud- eller videofil. Vi tillämpar därför samma begränsning vid uppladdning av nya filer.

Filer du kan ladda ner i exempel

Exempell företagsrapport Exempel projektplan Stor historisk dokument

Bearbeta och återanvända filer

Filer som du laddar upp behandlas först innan AI-Corporate kan använda innehållet i chattar, assistenter och arbetsflöden. Om bearbetningen misslyckas får filen ett felstatus och du kan ladda upp den igen eller låta bearbeta igen från Filhantering.

För PDFs kan AI-Corporate använda den vanliga textlagret och, när det behövs, utföra en mer omfattande PDF-analys. Detta är användbart för skannade dokument, ifyllda formulär, handskrivna anteckningar, cirkade eller markerade val, tabeller och visuell information. Stora PDF-filer kan delas upp i mindre delar under bearbetningen.

När ett formulär eller arbetsflöde ber om en fil kan du ladda upp en ny fil eller välja en befintlig fil via mediehanteraren. Filer som tillförs via ett sådant formulär är tillgängliga för assistenten i den chatten, men väljs inte automatiskt för vanliga chatfrågor.

Markdown-filer med tillägget .md stöds också.