लंबा संदर्भ

Gemini 2.0 Flash और Gemini 1.5 Flash, 10 लाख टोकन वाली कॉन्टेक्स्ट विंडो के साथ आते हैं. वहीं, Gemini 1.5 Pro, 20 लाख टोकन वाली कॉन्टेक्स्ट विंडो के साथ आता है. पहले, लार्ज लैंग्वेज मॉडल (एलएलएम) में एक बार में ज़्यादा टेक्स्ट (या टोकन) नहीं डाले जा सकते थे. Gemini 1.5 की लंबी कॉन्टेक्स्ट विंडो में, डेटा को 99% से ज़्यादा समय तक सेव रखने की सुविधा मिलती है. इससे, डेटा के इस्तेमाल के कई नए उदाहरण और डेवलपर पैराडाइम मिलते हैं.

टेक्स्ट जनरेशन या मल्टीमोडल इनपुट जैसे मामलों के लिए पहले से इस्तेमाल किया जा रहा कोड, लंबे कॉन्टेक्स्ट के साथ बिना किसी बदलाव के काम करेगा.

इस गाइड में, कॉन्टेक्स्ट विंडो के बुनियादी सिद्धांतों के बारे में कम शब्दों में बताया गया है. साथ ही, यह भी बताया गया है कि डेवलपर को लंबे कॉन्टेक्स्ट के बारे में कैसे सोचना चाहिए, लंबे कॉन्टेक्स्ट के लिए असल दुनिया के अलग-अलग इस्तेमाल के उदाहरण, और लंबे कॉन्टेक्स्ट के इस्तेमाल को ऑप्टिमाइज़ करने के तरीके.

कॉन्टेक्स्ट विंडो क्या होती है?

Gemini मॉडल का इस्तेमाल करने का बुनियादी तरीका यह है कि मॉडल को जानकारी (कॉन्टेक्स्ट) भेजी जाए, ताकि वह जवाब जनरेट कर सके. कॉन्टेक्स्ट विंडो को शॉर्ट टर्म मेमोरी के तौर पर समझा जा सकता है. किसी व्यक्ति की कम अवधि की याददाश्त में सीमित जानकारी सेव की जा सकती है. यही बात जनरेटिव मॉडल के लिए भी सच है.

जनरेटिव मॉडल की गाइड में, इस बारे में ज़्यादा पढ़ा जा सकता है कि मॉडल कैसे काम करते हैं.

लंबे कॉन्टेक्स्ट का इस्तेमाल शुरू करना

पिछले कुछ सालों में बनाए गए ज़्यादातर जनरेटिव मॉडल, एक बार में सिर्फ़ 8,000 टोकन प्रोसेस कर सकते थे. नए मॉडल में, 32,000 या 1,28,000 टोकन स्वीकार किए जा सकते हैं. Gemini 1.5 पहला ऐसा मॉडल है जो 10 लाख टोकन स्वीकार कर सकता है. अब Gemini 1.5 Pro के साथ 20 लाख टोकन स्वीकार किए जा सकते हैं.

10 लाख टोकन इस तरह दिखेंगे:

  • कोड की 50,000 लाइनें (हर लाइन में स्टैंडर्ड तौर पर 80 वर्ण)
  • पिछले पांच सालों में भेजे गए सभी मैसेज
  • औसत लंबाई की आठ अंग्रेज़ी उपन्यास
  • औसत अवधि के 200 से ज़्यादा पॉडकास्ट एपिसोड के ट्रांसक्रिप्ट

भले ही, मॉडल ज़्यादा से ज़्यादा कॉन्टेक्स्ट को शामिल कर सकते हैं, लेकिन बड़े लैंग्वेज मॉडल का इस्तेमाल करने के बारे में आम तौर पर यह माना जाता है कि मॉडल में यह सीमितता होती है. हालांकि, साल 2024 से यह बात लागू नहीं होती.

छोटी कॉन्टेक्स्ट विंडो की सीमाओं को मैनेज करने के लिए, ये सामान्य रणनीतियां अपनाई जा सकती हैं:

  • नए टेक्स्ट के आने पर, कॉन्टेक्स्ट विंडो से पुराने मैसेज / टेक्स्ट को अपने हिसाब से हटाना
  • कॉन्टेक्स्ट विंडो के भर जाने पर, पिछले कॉन्टेंट की खास जानकारी देना और उसे खास जानकारी से बदलना
  • कॉन्टेक्स्ट विंडो से डेटा को हटाकर, वेक्टर डेटाबेस में ले जाने के लिए, सेमेटिक सर्च के साथ आरएजी का इस्तेमाल करना
  • टोकन सेव करने के लिए, प्रॉम्प्ट से कुछ टेक्स्ट / वर्ण हटाने के लिए, डेटरमिनिस्टिक या जनरेटिव फ़िल्टर का इस्तेमाल करना

हालांकि, इनमें से कई अब भी कुछ मामलों में काम के हैं, लेकिन डिफ़ॉल्ट तौर पर अब सभी टोकन को कॉन्टेक्स्ट विंडो में डाला जा रहा है. Gemini मॉडल को लंबी कॉन्टेक्स्ट विंडो के साथ खास मकसद से बनाया गया था. इसलिए, ये कॉन्टेक्स्ट के हिसाब से सीखने की क्षमता रखते हैं. उदाहरण के लिए, Gemini 1.5 Pro और Gemini 1.5 Flash, सिर्फ़ निर्देशों वाले कॉन्टेक्स्ट में दिए गए मटीरियल (500 पेजों की रेफ़रंस व्याकरण, एक डिक्शनरी, और 400 अतिरिक्त पैरलल वाक्य) से, अंग्रेज़ी से Kalamang में अनुवाद करने की कला सीख सकते हैं. Kalamang, पापुआ की एक ऐसी भाषा है जिसे 200 से भी कम लोग बोलते हैं और इसलिए, इसकी ऑनलाइन उपस्थिति काफ़ी कम है. Gemini 1.5 Pro और Gemini 1.5 Flash, इन मटीरियल से सीखने वाले किसी व्यक्ति की तरह ही क्वालिटी के अनुवाद कर सकते हैं.

इस उदाहरण से पता चलता है कि लंबे कॉन्टेक्स्ट और Gemini मॉडल की कॉन्टेक्स्ट के हिसाब से सीखने की सुविधाओं की मदद से, क्या-क्या किया जा सकता है.

लंबे कॉन्टेक्स्ट के इस्तेमाल के उदाहरण

ज़्यादातर जनरेटिव मॉडल के लिए, इस्तेमाल का स्टैंडर्ड उदाहरण अब भी टेक्स्ट इनपुट है. हालांकि, Gemini 1.5 मॉडल फ़ैमिली, मल्टीमोडल इस्तेमाल के उदाहरणों के लिए एक नया पैराडाइम उपलब्ध कराती है. ये मॉडल, टेक्स्ट, वीडियो, ऑडियो, और इमेज को नेटिव तौर पर समझ सकते हैं. इनके साथ, Gemini API भी उपलब्ध है. यह एपीआई, कई तरह की फ़ाइल टाइप को इस्तेमाल करता है.

लंबी अवधि का टेक्स्ट

टेक्स्ट, एलएलएम के लिए अहम जानकारी देने वाली लेयर साबित हुआ है. जैसा कि पहले बताया गया है, कुछ टास्क करने के लिए, एलएलएम के पास ज़रूरत के मुताबिक बड़ी कॉन्टेक्स्ट विंडो नहीं होती. इस वजह से, एलएलएम की परफ़ॉर्मेंस पर असर पड़ता है. इस वजह से, रिट्रीवल ऑगमेंटेड जनरेशन (आरएजी) और अन्य तकनीकों को तेज़ी से अपनाया गया. ये तकनीकें, मॉडल को काम के कॉन्टेक्स्ट के हिसाब से डाइनैमिक जानकारी देती हैं. अब, बड़ी और बड़ी कॉन्टेक्स्ट विंडो (फ़िलहाल, Gemini 1.5 Pro पर 20 लाख तक) के साथ, नई तकनीकें उपलब्ध हो रही हैं. इनकी मदद से, एआई के नए इस्तेमाल के उदाहरण मिलेंगे.

टेक्स्ट पर आधारित लंबे कॉन्टेक्स्ट के लिए, इस्तेमाल के कुछ नए और स्टैंडर्ड उदाहरणों में ये शामिल हैं:

  • टेक्स्ट के बड़े कॉर्पस की खास जानकारी देना
    • छोटे कॉन्टेक्स्ट मॉडल के साथ, खास जानकारी देने के पिछले विकल्पों के लिए, स्लाइडिंग विंडो या किसी दूसरी तकनीक की ज़रूरत होगी. इससे, मॉडल में नए टोकन पास होने पर, पिछले सेक्शन की स्थिति को बनाए रखा जा सकेगा
  • सवाल पूछना और जवाब देना
    • पहले, सीमित कॉन्टेक्स्ट और मॉडल के तथ्यों को याद रखने की कम क्षमता की वजह से, ऐसा सिर्फ़ आरएजी के साथ ही किया जा सकता था
  • एजेंटिक वर्कफ़्लो
    • टेक्स्ट से यह पता चलता है कि एजेंट ने क्या किया है और उन्हें क्या करना है. दुनिया और एजेंट के लक्ष्य के बारे में ज़रूरत के मुताबिक जानकारी न होने पर, एजेंट पर भरोसा नहीं किया जा सकता

कई शॉट वाले कॉन्टेक्स्ट में लर्निंग, लंबे कॉन्टेक्स्ट वाले मॉडल की सबसे खास सुविधाओं में से एक है. रिसर्च से पता चला है कि "सिंगल शॉट" या "मल्टी-शॉट" वाले सामान्य उदाहरणों का इस्तेमाल करने से, मॉडल की नई क्षमताएं मिल सकती हैं. उदाहरण के लिए, मॉडल को किसी टास्क के एक या कुछ उदाहरणों के साथ दिखाना और उन्हें सैकड़ों, हज़ारों या लाखों उदाहरणों तक बढ़ाना. कई शॉट वाले इस तरीके से, उन मॉडल की तरह ही परफ़ॉर्म किया गया है जिन्हें किसी खास टास्क के लिए फ़ाइन-ट्यून किया गया था. जिन इस्तेमाल के उदाहरणों में Gemini मॉडल की परफ़ॉर्मेंस, प्रोडक्शन रोल आउट के लिए अभी तक काफ़ी नहीं है उनके लिए, कई शॉट वाला तरीका आज़माया जा सकता है. जैसा कि आपने बाद में लंबे कॉन्टेक्स्ट ऑप्टिमाइज़ेशन सेक्शन में देखा होगा, कॉन्टेक्स्ट कैश मेमोरी से इस तरह के ज़्यादा इनपुट टोकन वर्कलोड को किफ़ायती तरीके से पूरा किया जा सकता है. साथ ही, कुछ मामलों में इंतज़ार का समय भी कम हो सकता है.

लंबी अवधि के वीडियो

वीडियो कॉन्टेंट की उपयोगिता, लंबे समय से इस वजह से सीमित है कि इस माध्यम को ऐक्सेस करना मुश्किल है. कॉन्टेंट को स्किम करना मुश्किल था. अक्सर ट्रांसक्रिप्ट में वीडियो के बारे में पूरी जानकारी नहीं मिलती थी. साथ ही, ज़्यादातर टूल इमेज, टेक्स्ट, और ऑडियो को एक साथ प्रोसेस नहीं करते थे. Gemini 1.5 में, लंबे कॉन्टेक्स्ट वाले टेक्स्ट की सुविधाओं का इस्तेमाल करके, मल्टीमोडल इनपुट के बारे में सवालों के जवाब दिए जा सकते हैं. साथ ही, बेहतर परफ़ॉर्मेंस के साथ, इन सवालों के जवाब दिए जा सकते हैं. Gemini 1.5 Flash को 10 लाख टोकन वाली कॉन्टेक्स्ट विंडो में, वीडियो के लिए हेयस्टैक समस्या के लिए टेस्ट किया गया. इसमें, कॉन्टेक्स्ट विंडो में वीडियो का 99.8% से ज़्यादा रीकॉल मिला. साथ ही, 1.5 Pro ने वीडियो-एमएमई बेंचमार्क पर बेहतरीन परफ़ॉर्मेंस दी.

वीडियो के लंबे कॉन्टेक्स्ट के लिए, इस्तेमाल के कुछ नए और स्टैंडर्ड उदाहरणों में ये शामिल हैं:

  • वीडियो में सवाल पूछना और जवाब देना
  • वीडियो मेमोरी, जैसा कि Google के Project Astra में दिखाया गया है
  • वीडियो के लिए कैप्शन जोड़ना
  • वीडियो के सुझाव देने वाले सिस्टम, जो मौजूदा मेटाडेटा को कई तरीकों से समझने की नई सुविधा के साथ बेहतर बनाते हैं
  • वीडियो को दर्शक के हिसाब से बनाने के लिए, डेटा और उससे जुड़े वीडियो के मेटाडेटा का इस्तेमाल करना. इसके बाद, वीडियो के उन हिस्सों को हटाना जो दर्शक के लिए काम के नहीं हैं
  • वीडियो कॉन्टेंट को मॉडरेट करना
  • रीयल-टाइम वीडियो प्रोसेसिंग

वीडियो के साथ काम करते समय, यह ध्यान रखना ज़रूरी है कि वीडियो को टोकन में कैसे प्रोसेस किया जाता है. इससे बिलिंग और इस्तेमाल की सीमाओं पर असर पड़ता है. प्रॉम्प्ट करने के बारे में गाइड में, वीडियो फ़ाइलों की मदद से प्रॉम्प्ट करने के बारे में ज़्यादा जानें.

लंबी अवधि का ऑडियो

Gemini 1.5 मॉडल, नेटिव मल्टीमोडल लार्ज लैंग्वेज मॉडल थे. ये ऐसे मॉडल थे जो ऑडियो को समझ सकते थे. आम तौर पर, डेवलपर के वर्कफ़्लो में ऑडियो को प्रोसेस करने के लिए, डोमेन के हिसाब से कई मॉडल को एक साथ जोड़ना शामिल होता है. जैसे, बोली को टेक्स्ट में बदलने वाला मॉडल और टेक्स्ट को टेक्स्ट में बदलने वाला मॉडल. इस वजह से, एक से ज़्यादा राउंड-ट्रिप अनुरोध करने के लिए ज़्यादा इंतज़ार करना पड़ता है. साथ ही, एक से ज़्यादा मॉडल सेटअप के डिसकनेक्ट किए गए आर्किटेक्चर की वजह से, परफ़ॉर्मेंस में कमी आती है.

स्टैंडर्ड ऑडियो-हेस्टैक की जांच में, Gemini 1.5 Pro 100% टेस्ट में छिपे हुए ऑडियो का पता लगा पाता है. वहीं, Gemini 1.5 Flash 98.7% टेस्ट में छिपे हुए ऑडियो का पता लगा पाता है. Gemini 1.5 Flash, एक अनुरोध में ज़्यादा से ज़्यादा 9.5 घंटे का ऑडियो स्वीकार करता है. वहीं, Gemini 1.5 Pro, 20 लाख टोकन वाली कॉन्टेक्स्ट विंडो का इस्तेमाल करके 19 घंटे तक का ऑडियो स्वीकार कर सकता है. इसके अलावा, 15 मिनट की ऑडियो क्लिप के टेस्ट सेट पर, Gemini 1.5 Pro के लिए, शब्द में होने वाली गड़बड़ी का अनुपात (डब्ल्यूईआर) ~5.5% है. यह अनुपात, बोली को टेक्स्ट में बदलने वाले खास मॉडल के मुकाबले काफ़ी कम है. इसके लिए, इनपुट को अलग-अलग सेगमेंट में बांटने और प्री-प्रोसेसिंग की ज़रूरत नहीं होती.

ऑडियो कॉन्टेक्स्ट के लिए, इस्तेमाल के कुछ नए और स्टैंडर्ड उदाहरणों में ये शामिल हैं:

  • बोले जा रहे शब्दों को रीयल-टाइम में टेक्स्ट में बदलने और अनुवाद की सुविधा
  • पॉडकास्ट / वीडियो में सवाल पूछना और जवाब देना
  • मीटिंग में बोले गए शब्दों को लेख में बदलने और खास जानकारी देने की सुविधा
  • वॉइस असिस्टेंट

ऑडियो फ़ाइलों की मदद से प्रॉम्प्ट करने के बारे में ज़्यादा जानने के लिए, प्रॉम्प्ट करने के लिए बनी गाइड पढ़ें.

लंबे कॉन्टेक्स्ट के लिए ऑप्टिमाइज़ेशन

ज़्यादा कॉन्टेक्स्ट और Gemini 1.5 के मॉडल के साथ काम करते समय, कॉन्टेक्स्ट कैश मेमोरी का इस्तेमाल करना, प्राइमरी ऑप्टिमाइज़ेशन है. पहले, एक अनुरोध में कई टोकन प्रोसेस करना मुमकिन नहीं था. साथ ही, शुल्क भी एक बड़ी समस्या थी. अगर आपके पास "अपने डेटा के साथ चैट करें" ऐप्लिकेशन है, जहां कोई उपयोगकर्ता 10 PDF, एक वीडियो, और कुछ काम के दस्तावेज़ अपलोड करता है, तो इन अनुरोधों को प्रोसेस करने के लिए, आपको पहले रीट्रिवल ऑगमेंटेड जनरेशन (RAG) टूल / फ़्रेमवर्क के साथ काम करना पड़ता था. साथ ही, कॉन्टेक्स्ट विंडो में भेजे गए टोकन के लिए ज़्यादा पैसे चुकाने पड़ते थे. अब, उपयोगकर्ता की अपलोड की गई फ़ाइलों को कैश मेमोरी में सेव किया जा सकता है. साथ ही, उन्हें हर घंटे के हिसाब से सेव करने के लिए पैसे चुकाए जा सकते हैं. उदाहरण के लिए, Gemini 1.5 Flash के साथ हर अनुरोध के लिए इनपुट / आउटपुट की लागत, स्टैंडर्ड इनपुट / आउटपुट की लागत से ~4 गुना कम होती है. इसलिए, अगर उपयोगकर्ता अपने डेटा के साथ ज़्यादा चैट करता है, तो डेवलपर के तौर पर आपको काफ़ी बचत होती है.

लंबे कॉन्टेक्स्ट की सीमाएं

इस गाइड के अलग-अलग सेक्शन में, हमने बताया है कि Gemini 1.5 मॉडल, अलग-अलग तरह के 'नेडल इन द हेस्टैक' रीट्रिवल इवैल्यूएशन में बेहतर परफ़ॉर्म कैसे करते हैं. इन जांचों में सबसे बुनियादी सेटअप को ध्यान में रखा जाता है, जिसमें आपको एक ही सुई ढूंढनी होती है. अगर आपको एक से ज़्यादा "नीडल" या जानकारी के खास हिस्से चाहिए, तो मॉडल उतनी ही सटीक जानकारी नहीं दे पाता. कॉन्टेक्स्ट के हिसाब से, परफ़ॉर्मेंस में काफ़ी अंतर हो सकता है. इस बात का ध्यान रखना ज़रूरी है, क्योंकि सही जानकारी पाने और लागत के बीच एक तय सीमा होती है. एक क्वेरी पर आपको ~99% सटीक नतीजे मिल सकते हैं. हालांकि, हर बार क्वेरी भेजने पर आपको इनपुट टोकन की कीमत चुकानी होगी. इसलिए, अगर आपको 100 तरह की जानकारी चाहिए और आपको 99% परफ़ॉर्मेंस चाहिए, तो आपको 100 अनुरोध भेजने होंगे. यह एक अच्छा उदाहरण है कि कैसे कॉन्टेक्स्ट कैश मेमोरी का इस्तेमाल करके, Gemini मॉडल का इस्तेमाल करने से जुड़ी लागत को काफ़ी कम किया जा सकता है. साथ ही, परफ़ॉर्मेंस को बेहतर बनाए रखा जा सकता है.

अक्सर पूछे जाने वाले सवाल

कॉन्टेक्स्ट विंडो में अपनी क्वेरी को कहां डालना चाहिए?

ज़्यादातर मामलों में, अगर कॉन्टेक्स्ट लंबा है, तो मॉडल की परफ़ॉर्मेंस बेहतर होगी. इसके लिए, अपनी क्वेरी / सवाल को प्रॉम्प्ट के आखिर में (अन्य सभी कॉन्टेक्स्ट के बाद) रखें.

क्या किसी क्वेरी में ज़्यादा टोकन जोड़ने पर, मॉडल की परफ़ॉर्मेंस पर असर पड़ता है?

आम तौर पर, अगर आपको मॉडल में टोकन पास करने की ज़रूरत नहीं है, तो बेहतर होगा कि आप उन्हें पास न करें. हालांकि, अगर आपके पास कुछ जानकारी वाले टोकन का बड़ा हिस्सा है और आपको उस जानकारी के बारे में सवाल पूछने हैं, तो मॉडल उस जानकारी को निकालने में काफ़ी सक्षम है. कई मामलों में, यह जानकारी 99% तक सटीक होती है.

Gemini 1.5 Pro, स्टैंडर्ड नेडल-इन-अ-हेस्टैक टेस्ट में कैसा परफ़ॉर्म करता है?

Gemini 1.5 Pro, 5.3 लाख टोकन तक 100% रीकॉल और 10 लाख टोकन तक 99.7% रीकॉल हासिल करता है.

मैं लंबी कॉन्टेक्स्ट क्वेरी की मदद से, अपनी लागत कैसे कम करूं?

अगर आपके पास एक जैसे कई टोकन / कॉन्टेक्स्ट हैं और आपको उनका कई बार फिर से इस्तेमाल करना है, तो कॉन्टेक्स्ट कैश मेमोरी में सेव करने की सुविधा से, उस जानकारी के बारे में सवाल पूछने से जुड़ी लागत को कम करने में मदद मिल सकती है.

मुझे दो लाख टोकन वाली कॉन्टेक्स्ट विंडो का ऐक्सेस कैसे मिलेगा?

सभी डेवलपर के पास अब Gemini 1.5 Pro के साथ, 20 लाख टोकन वाली कॉन्टेक्स्ट विंडो का ऐक्सेस है.

क्या कॉन्टेक्स्ट की लंबाई का मॉडल के इंतज़ार के समय पर असर पड़ता है?

किसी भी अनुरोध में लगने वाला समय तय होता है. भले ही, अनुरोध का साइज़ कितना भी हो. हालांकि, आम तौर पर लंबी क्वेरी में ज़्यादा समय लगेगा (पहले टोकन का समय).

क्या Gemini 1.5 Flash और Gemini 1.5 Pro के बीच, ज़्यादा कॉन्टेक्स्ट वाली विंडो की सुविधाओं में अंतर है?

हां, इस गाइड के अलग-अलग सेक्शन में कुछ संख्याओं के बारे में बताया गया था. हालांकि, आम तौर पर Gemini 1.5 Pro, लंबे कॉन्टेक्स्ट वाले ज़्यादातर इस्तेमाल के उदाहरणों पर बेहतर परफ़ॉर्म करता है.