Przejdź do głównej treści

Rozmowa z dokumentami

Kolejny krok w przetwarzaniu informacji

Zamiast polegać na publicznych zbiorach danych i ogólnej wiedzy, „Rozmowa z dokumentami” generuje kontekstowo-specyficzne odpowiedzi i analizy na podstawie Twoich zaufanych źródeł wewnętrznych. Prześlij swoje dokumenty i używaj ich jako podstawy do odpowiadania na pytania w czacie!

Rozwiązywanie ograniczeń danych

Jeżeli zadajesz pytania modelowi językowemu, polegasz na zestawie danych, na którym model był trenowany. Zazwyczaj są to informacje pozyskane z Internetu. Prywatne źródła najprawdopodobniej nie znajdują się w tym zestawie danych. Korzystając z Twoich dokumentów jako źródła do czatu, masz pewność, że model posiada informacje, których potrzebujesz do odpowiedzi na Twoje pytania.

Możliwości z Twoimi dokumentami

Możesz zadawać pytania dotyczące Twoich dokumentów, takie jak wymienienie najważniejszych punktów dokumentu lub zsumowanie dokumentu. Możesz też zlecić modelowi wykonanie konkretnych analiz na Twoim własnym zestawie danych.

Wady czatowania opartego na dokumentach

Przesłanie i przetwarzanie dokumentów to dodatkowe kroki, których nie musisz wykonywać, jeśli możesz uzyskać dobrą odpowiedź bez kontekstu konkretnych informacji. Generowanie odpowiedzi zajmuje też więcej czasu, ponieważ najpierw trzeba pozyskać niezbędne informacje z dokumentu, zanim zapytanie zostanie wysłane do modelu językowego.

Za kulisami czatowania z dokumentami

Tekst z dokumentów, które przesyłasz, jest wyodrębniany z dokumentu i dzielony na fragmenty. Fragmenty mają stałą długość znaków (1024 znaki) i ustawiono także nakładkę (128 znaków) między fragmentami. Każdy fragment tekstu jest zapisywany jako wektor w bazie wektorów. Przy każdorazowym pytaniu dokonuje się wyboru z tych danych na podstawie podobieństwa do zadawanej kwestii.

Proces selekcji fragmentów dokumentu

Fragmenty tekstu są już przekształcone w wektory. Wektory mają wiele wymiarów, które wskazują, jak „podobny” jest ten tekst do innych tekstów. Pomyśl o systemie kolorów RGB. Kolor o zbliżonej wartości RGB jest podobny, ale nie identyczny. Baza danych wektorów pozwala nam pobierać fragmenty tekstu w porządku i filtrze na podstawie pytania. Maksymalnie wybieramy 100 fragmentów tekstu po 1024 znaków, które będą wysłane wraz z pytaniem.

Odpowiednie modele do czatowania opartego na dokumentach

Wybraliśmy modele z dużą przestrzenią kontekstu, aby umożliwić czatowanie z dokumentami. Chcemy móc wysłać maksymalnie 100 fragmentów po 1024 znaki. To ponad 100 000 znaków. Najlepiej użyj wysokiej jakości modelu językowego z centralnego katalogu modeli.

Odpowiednie modele

Odpowiednie modele to takie, które mają wystarczająco dużo miejsca na kontekst i dobre analizowanie dokumentów, takie jak wysokiej jakości modele od OpenAI, Claude, Google lub europejskiej AI.

Wybierz jeden lub więcej dokumentów

Możesz włączyć tryb plików, klikając ikonę spinacza po prawej stronie paska pytań. Możesz wybrać do 10 plików do czatowania.

Odpowiednie modele językowe

W momencie rozpoczęcia czatowania z dokumentami sprawdzane jest, czy model językowy jest odpowiedni do czatowania z dokumentami. Jeżeli nie, automatycznie zostanie wybrany odpowiedni model z aktualnego katalogu.

Rozmawiasz z tymi dokumentami tak długo, jak tryb plików jest włączony.

Przetwarzanie per plik

Oprócz czatowania z dokumentami, AI-Corporate oferuje również możliwość zastosowania promptu osobno do każdego dokumentu i otrzymania odpowiedzi indywidualnie. Ta funkcja nazywa się Przetwarzanie per plik.

Przetwarzanie per plik

Ta funkcja może być używana w połączeniu z „Rozmową z plikami”.

Scenariusz możliwy

Praktyczny przykład użycia „Przetwarzanie per plik”:

  1. Prześlesz referencyjny dokument (na przykład szablon umowy) i włączysz go w Rozmowę z plikami
  2. Prześlesz kilka dokumentów do analizy i włączysz je w Przetwarzanie per plik
  3. Sformułujesz prompt, który będzie stosowany do każdego pliku indywidualnie

W ten sposób możesz na przykład automatycznie przeanalizować wszystkie umowy na podstawie referencyjnego szablonu.

Maksymalna liczba plików

Obowiązuje maksymalnie 30 plików dla funkcji „Przetwarzanie per plik”.

Obsługiwane typy plików

AI-Corporate obsługuje różne typy plików do czatowania z dokumentami:

  • Pliki PDF o rozszerzeniu .pdf
  • Pliki Word o rozszerzeniu .docx
  • Pliki CSV o rozszerzeniu .csv
  • Pliki JSON o rozszerzeniu .json
  • Pliki tekstowe o rozszerzeniu .txt
  • Pliki audio i wideo o rozszerzeniach 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' lub 'webm'

Czatowanie z plikami audio lub wideo

Do czatowania z plikami audio lub wideo AI-Corporate korzysta z modelu Whisper OpenAI.

Po eksporcie tekstu może być użyty odpowiedni model tekstowy, aby skorygować interpunkcję i pisownię.

Następnie obowiązuje ta sama procedura co przy ekstrakcji z PDF lub dokumentów Word.

Whisper ma limit 25 MB na plik audio lub wideo. Dlatego przy przesyłaniu nowych plików stosujemy ten sam limit.

Pliki, które możesz pobrać jako przykład

Przykładowy raport firmowy Przykładowy plan projektu Duży dokument historii

Przetwarzanie i ponowne użycie plików

Pliki, które przesyłasz, najpierw są przetwarzane, zanim AI-Corporate będzie mogło wykorzystać ich treść w czatach, asystentach i przepływach pracy. Jeżeli przetwarzanie zakończy się niepowodzeniem, plik otrzymuje status błędu i możesz go ponownie przesłać lub ponownie przetworzyć z poziomu Zarządzania plikami.

W przypadku plików PDF AI-Corporate może użyć zwykłej warstwy tekstowej i, gdy zajdzie potrzeba, przeprowadzić obszerniejszą analizę PDF. Przydatne to jest przy dokumentach zeskanowanych, wypełnionych formularzach, notatkach odręcznych, zakreślonych lub podkreślonych wyborach, tabelach i wizualnych informacjach. Duże pliki PDF mogą być w trakcie przetwarzania podzielone na mniejsze części.

Gdy formularz lub workflow żąda pliku, możesz przesłać nowy plik lub wybrać istniejący plik przez menedżer multimediów. Pliki dodane za pomocą takiego formularza są dostępne dla asystenta w tej czacie, ale nie są automatycznie wybrane do zwykłych pytań czatowych.

Pliki Markdown z rozszerzeniem .md są również wspierane.