Chat cu documente
Următoarea etapă în prelucrarea informațiilor
În loc să te bazezi pe seturi de date publice și pe cunoștințe generale, „Chat cu Documente” generează răspunsuri și analize specifice contextului pe baza surselor tale interne de încredere. Încarcă documentele tale și folosește aceste documente ca bază pentru a răspunde la întrebările din chat!
Deblocarea limitelor de date
Dacă pui întrebări unui model lingvistic, depinzi de setul de date cu care a fost antrenat. În general, acestea provin de pe internet. Sursele neautorizate probabil nu se află în acest set de date. Folosind documentele tale ca sursă pentru chat, te asiguri că modelul deține informațiile de care ai nevoie pentru a răspunde la întrebările tale.
Posibilități cu documentele tale
Poți pune întrebări despre documentele tale, cum ar fi enumerarea principalelor puncte ale unui document sau rezumarea acestuia. De asemenea, poți ruga modelul lingvistic să efectueze analize specifice folosind propriul tău set de date.
Nachteile pentru chat-ul bazat pe documente
Încărcarea documentelor și procesarea acestora reprezintă pași în plus pe care nu trebuie să îi efectuezi dacă poți obține răspunsuri bune chiar și fără contextul unor informații specifice. De asemenea, durează mai mult să generezi un răspuns, deoarece trebuie mai întâi să se extragă informațiile necesare din document înainte de a trimite cererea către modelul lingvistic.
Din spatele scenei chatului cu documente
Textul din documentele pe care le încarci este extras din document și împărțit în fragmente. Aceste fragmente au un număr fix de caractere (1024 de caractere) iar am creat o suprapunere de 128 de caractere între fragmente. Fiecare bucată de text este stocată ca o vector în baza de vectori. Pentru fiecare întrebare, pe baza asemănării cu cererea, se face o selecție din aceste date.
Procesul de selecție a fragmentelor de document
Fragmentele de text au fost deja convertite în vectori. Vectorii au mai multe dimensiuni care indică cât de „aproape” este acel text de alte texte. Gândește-te la sistemul de culoare RGB. O culoare cu valoare RGB similară este și o culoare similară, dar ușor diferită. Baza de date vectoriale ne permite să extragem fragmentele de text în ordinea relevanței față de întrebarea pusă. Alegem maximum 100 fragmente de text de 1024 de caractere pentru a fi include în răspuns.
Modele potrivite pentru chat-ul bazat pe documente
Am selectat modele cu un spațiu mare de context pentru a face posibil chat-ul cu documente. Dorim să putem trimite maximum 100 de fragmente de text de 1024 de caractere. Aceasta reprezintă peste 100.000 de caractere. Folosește, de preferință, un model lingvistic de înaltă calitate din catalogul central de modele.
Modelele potrivite sunt cele cu spațiu de context suficient și o analiză bună a documentelor, cum ar fi modelele de înaltă calitate de la OpenAI, Claude, Google sau AI europene.
Selectează unul sau mai multe documente
Poți activa modul fișierului făcând clic pe clipsul de hârtie din partea dreaptă a barei de întrebări. Poți selecta până la 10 fișiere pentru chat.
În momentul în care începi să chat-ezi cu documente, se verifică dacă modelul lingvistic este potrivit pentru chat cu documente. Dacă nu este, se va selecta automat un model potrivit din catalogul actual.
Poți chat-ui cu aceste documente atât timp cât modul fișier este activ.
Procesare per fișier
Pe lângă chat-ul cu documente, AI-Corporate oferă și posibilitatea de a aplica o prompt separat pentru fiecare document și de a primi răspunsuri individuale. Această funcție se numește Procesare per fișier.

Această funcție poate fi utilizată în combinație cu „Chat cu fișiere”.
Scenariu posibil
Un exemplu practic de utilizare a „Procesare per fișier”:
- Încarci un document de referință (de exemplu un șablon de contract) și îl activezi la Chat cu fișiere
- Încarci mai multe documente care trebuie analizate și le activezi la Procesare per fișier
- Formulezi un prompt, aplicat tuturor fișierelor, fiecare în mod individual
În acest fel poți, de exemplu, să analizezi automat toate contractele pe baza șablonului de referință.
Există un maximum de 30 de fișiere pentru funcția „Procesare per fișier”.
Tipuri de fișiere acceptate
AI-Corporate acceptă diferite tipuri de fișiere pentru chat-ul cu documente:
- Fișiere PDF cu extensia .pdf
- Fișiere Word cu extensia .docx
- Fișiere CSV cu extensia .csv
- Fișiere JSON cu extensia .json
- Fișiere text cu extensia .txt
- Fișiere audio și video cu extensiile 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' sau 'webm'
Chat cu fișiere audio sau video
Pentru chat-ul cu fișiere audio sau video, AI-Corporate utilizează modelul Whisper al OpenAI.
După extragerea textului, se poate utiliza un model de text potrivit pentru a verifica și corecta punctuația și ortografia.
Apoi urmează aceeași procedură ca pentru extragerea din documente PDF sau Word.
Whisper are o limită de 25 MB pe fișier audio sau video. Din acest motiv aplicăm aceeași limită și la încărcarea fișierelor noi.
Fișiere pe care le poți descărca ca exemplu
Raport de afaceri exemplu Cuvânt proiect exemplu Document istoric mare
Procesarea și reutilizarea fișierelor
Fișierele pe care le încarci sunt procesate mai întâi înainte ca AI-Corporate să poată utiliza conținutul în chaturi, asistenți și fluxuri de lucru. Dacă procesarea eșuează, fișierul primește o stare de eroare și îl poți reîncărca sau reprocesa din Gestionarea fișierelor.
La fișiere PDF, AI-Corporate poate utiliza în mod obișnuit stratul de text și, când este necesar, poate realiza o analiză PDF mai detaliată. Acest lucru este util pentru documente scanate, formulare completate, note scrise de mână, opțiuni încercuite sau subliniate, tabele și informații vizuale. Fișiere mari PDF pot fi împărțite în bucăți mai mici în timpul procesării.
Când un formular sau un flux de lucru solicită un fișier, poți încărca un fișier nou sau poți alege unul existent din administratorul media. Fișierele adăugate printr-un astfel de formular sunt disponibile pentru asistent în acea chat, dar nu sunt selectate automat pentru întrebări obișnuite de chat.
Fișiere Markdown cu extensia .md sunt, de asemenea, acceptate.