मुख्य सामग्री पर जाएं

दस्तावेज़ों के साथ चैट

जानकारी प्रसंस्करण में अगला कदम

Public datasets औरทั่วไป ज्ञान पर निर्भर रहने के बजाय, "डॉक्यूमेंट्स के साथ चैट" संदर्भ-विशिष्ट उत्तर और विश्लेषण बनाता है जो आपकी विश्वसनीय आंतरिक संसाधनों पर आधारित है। अपने दस्तावेज़ अपलोड करें और चैट के उत्तरों के आधार के रूप में इन दस्तावेज़ों का उपयोग करें!

डेटा सीमाओं का समाधान

जब आप एक भाषा मॉडल से प्रश्न पूछते हैं, तो आप उस डेटासेट पर निर्भर होते हैं जिस पर मॉडल प्रशिक्षित हुआ है। यह सामान्यतः इंटरनेट से ली गई जानकारी होती है। गैर-प्रकट स्रोत संभवतः इस डेटासेट में नहीं होते। अपने दस्तावेज़ों को चैट के स्रोत के रूप में उपयोग करके आप यह सुनिश्चित करते हैं कि मॉडल के पास वही जानकारी है जिसकी आपको अपने प्रश्नों के उत्तर के लिए आवश्यकता है।

आपके दस्तावेज़ों के साथ क्षमताएं

आप अपने दस्तावेज़ों के बारे में प्रश्न पूछ सकते हैं जैसे किसी दस्तावेज़ के मुख्य बिंदु बताना या दस्तावेज़ का सारांश प्रस्तुत करना। आप अपनी स्वयं की डेटासेट की मदद से भाषा मॉडल से विशिष्ट विश्लेषण भी करवा सकते हैं।

दस्तावेज-आधारित चैटिंग के नुकसान

दस्तावेज़ अपलोड करना और उनका प्रसंस्करण अतिरिक्त कदम हैं जिन्हें आप बिना सामाजिक जानकारी के भी सही उत्तर प्राप्त कर सकते हैं। साथ ही एक उत्तर बनाने में अधिक समय लगता है क्योंकि अनुरोध को भाषा मॉडल को भेजने से पहले दस्तावेज़ से आवश्यक जानकारी निकाली जानी चाहिए।

दस्तावेजों के साथ चैट के पीछे की प्रक्रियाएं

आप जो दस्तावेज़ अपलोड करते हैं, उनसे टेक्स्ट निकाला जाता है और भागों में बाँटा जाता है। इन भागों का एक निश्चित अक्षर-गणना (1024 अक्षर) होता है और हमने भागों के बीच ओवरलैप भी सेट किया है (128 अक्षर)। हर छोटा टेक्स्ट स्निप्ट को एक वेक्टर के रूप में वेक्टर डेटाबेस में संग्रहीत किया जाता है। हर प्रश्न के समय इन डेटा से मिलान-जाँच करके चयन किया जाता है।

दस्तावेज़ स्निपेट चयन प्रक्रिया

ये टेक्स्ट स्निपेट पहले से वेक्टर में बदले जा चुके हैं। वेक्टर कई आयाम रखते हैं जो यह दर्शाते हैं कि यह टेक्स्ट अन्य टेक्स्ट से कितनी समान है। RGB रंग तंत्र की तरह सोचिए। एक समान RGB मान वाला रंग भी एक समान रंग है लेकिन थोड़ा भिन्न। वेक्टर डेटाबेस हमें टेक्स्ट के भागों को प्रश्न के आधार पर رتिबद्ध और फ़िल्टर करके प्राप्त करने में सक्षम बनाता है। हम अधिकतम 100 टेक्स्ट भागों को 1024 अक्षरों से लेकर प्रश्न के साथ भेजने के लिए चयन करते हैं।

दस्तावेज-आधारित चैट के लिए उपयुक्त मॉडल

हमने ऐसे मॉडल चुने हैं जिनमें बड़ा कॉन्टेक्स्ट विंडो हो ताकि दस्तावेज़ों के साथ चैट करना संभव हो सके। हम अधिकतम 100 भाग 1024 अक्षरों के साथ भेजना चाहते हैं। ये 100,000 से अधिक अक्षर है। इसके लिए केंद्रीय मॉडल कैटलॉग से उच्च-गुणवत्ता वाले भाषा मॉडल का उपयोग करें।

उपयुक्त मॉडल

उपयुक्त मॉडल वे होते हैं जिनमें पर्याप्त कॉन्टेक्स्ट स्थान और अच्छी दस्तावेज़-विश्लेषण हो, जैसे OpenAI के उच्च-गुणवत्ता मॉडल, Claude, Google या यूरोपिया AI के।

एक या एक से अधिक दस्तावेज़ चुनें

आप दस्तावेज़-फाइल मोड को सक्षम कर सकते हैं ताकि प्रश्न-पंक्ति के दाहिनी तरफ पेपरक्लिप पर क्लिक करें। आप चैट करने के लिए अधिकतम 10 फ़ाइलें चुन सकते हैं।

उपयुक्त भाषा मॉडल

जब आप दस्तावेज़ों के साथ चैटिंग शुरू करते हैं, तब यह जाँच किया जाता है कि भाषा मॉडल दस्तावेज़ों के साथ चैट करने हेतु उपयुक्त है या नहीं। यदि नहीं, तो मौजूदा कैटलॉग से एक उपयुक्त मॉडल स्वचालित रूप से चयनित कर लिया जाएगा।

आप इन दस्तावेज़ों के साथ चैट करते रहें जब तक फ़ाइल मोड चालू रहे।

प्रत्येक फ़ाइल के लिए प्रोसेसिंग

डॉक्यूमेंट्स के साथ चैटिंग के अलावा, AI-Corporate यह भी सक्षम करता है कि प्रत्येक दस्तावेज़ पर एक अलग प्रॉम्प्ट लागू किया जाए और व्यक्तिगत उत्तर प्राप्त किए जाएं। इस फ़ीचर को पर फ़ाइल प्रोसेसिंग कहा जाता है।

Per bestand verwerken

यह फ़ीचर "Chat with files" के साथ संयोजन में उपयोग की जा सकती है।

संभावित परिदृश्य

"Per bestand verwerken" के उपयोग का एक व्यावहारिक उदाहरण:

  1. आप एक संदर्भ दस्तावेज़ (उदा., एक अनुबंध टेम्पलेट) अपलोड करते हैं और इसे Chat with files के साथ सक्रिय करते हैं
  2. आप कई दस्तावेज़ अपलोड करते हैं जिन्हें विश्लेषण करना है और इन्हें Per bestand verwerken के साथ सक्रिय करते हैं
  3. आप एक प्रॉम्प्ट बनाते हैं, जिसे सभी फ़ाइलों पर व्यक्तिगत रूप से लागू किया जाएगा

इस प्रकार आप उदाहरण के लिए सभी अनुबंधों का संदर्भ टेम्पलेट के आधार पर स्वचालित विश्लेषण करवा सकते हैं।

अधिकतम दस्तावेज़ों की संख्या

"Per bestand verwerken" फ़ंक्शन के लिए अधिकतम 30 दस्तावेज़ लागू है।

समर्थन किए गए फ़ाइल प्रकार

AI-Corporate दस्तावेज़ों के साथ चैटिंग के लिए विभिन्न फ़ाइल प्रकारों का समर्थन करता है:

  • .pdf पर अंत होने वाले PDF फ़ाइलें
  • .docx पर अंत होने वाले Word फ़ाइलें
  • .csv पर अंत होने वाले CSV फ़ाइलें
  • .json पर अंत होने वाले JSON फ़ाइलें
  • .txt पर अंत होने वाले टेक्स्ट फ़ाइलें
  • .mp3, .mp4, .mpeg, .mpga, .m4a, .wav या .webm एक्सटेंशन वाले ऑडियो और वीडियो फ़ाइलें

ऑडियो या वीडियो फ़ाइलों के साथ चैट

ऑडियो या वीडियो फ़ाइलों के साथ चैट करने के लिए AI-Corporate OpenAI के Whisper मॉडल का उपयोग करता है।

टेक्स्ट एक्सट्रैक्शन के बाद, एक उपयुक्त टेक्स्ट मॉडल पंक्तियों-अराक्षण और वर्तनी की जाँच कर सही कर सकता है।

फिर वही प्रक्रिया होती है जो PDF या Word दस्तावेज़ से एक्सट्रैक्शन पर होती है।

Whisper की प्रति ऑडियो या वीडियो फ़ाइल पर 25 MB की सीमा है। इसलिए नई फ़ाइलों के अपलोड पर भी वही सीमा लागू है।

डाउनलोड करने हेतु उदाहरण फ़ाइलें

उदाहरण व्यवसायी रिपोर्ट उदाहरण परियोजना योजना बड़ी इतिहास दस्तावेज़

फ़ाइलें प्रोसेस करें और पुनः उपयोग करें

आपके द्वारा अपलोड की गई फ़ाइलें पहले प्रोसेस होती हैं, उसके बाद AI-Corporate उनके कंटेंट को चैटों, सहायक आदि में उपयोग कर पाता है। अगर प्रोसेसिंग विफल हो जाए, तो फ़ाइल का एक त्रुटि स्थिति बन जाती है और आप इसे 다시 अपलोड या Bestandsbeheer से फिर प्रोसेस करवा सकते हैं।

PDF के लिए AI-Corporate सामान्य टेक्स्ट लेयर का उपयोग कर सकता है और आवश्यक होने पर एक विस्तृत PDF विश्लेषण भी कर सकता है। यह स्कैन की गई दस्तावेज़, भरे गए फॉर्म, हस्तलिखित नोट्स, घेरा गया या रेखांकित विकल्प, तालिकाएं और दृश्य जानकारी के लिए उपयोगी है। बड़े PDFs प्रोसेस करते समय भागों में विभाजित हो सकते हैं।

जब एक फॉर्म या वर्कफ़्लो फ़ाइल माँगता है, आप एक नया फ़ाइल अपलोड कर सकते हैं या Mediabeheer से एक मौजूदा फ़ाइल चुन सकते हैं। ऐसे फ़ॉर्म के माध्यम से जोड़ी गई फ़ाइलें सहायक में चैट के लिए उपलब्ध होती हैं, लेकिन सामान्य चैट प्रश्नों के लिए स्वचालित चयनित नहीं होतीं।

एक .md एक्सटेंशन वाले Markdown फ़ाइलें भी समर्थित हैं।