Tech

एआई मॉडल में दीर्घकालिक मेमोरी समस्याओं को हल करने की क्षमता के साथ Google टाइटन्स एआई आर्किटेक्चर का अनावरण किया गया


गूगल शोधकर्ताओं ने पिछले सप्ताह एक नई कृत्रिम बुद्धिमत्ता (एआई) वास्तुकला का अनावरण किया जो बड़े भाषा मॉडल (एलएलएम) को घटनाओं और विषयों के दीर्घकालिक संदर्भ को याद रखने में सक्षम बना सकता है। इस विषय पर माउंटेन व्यू-आधारित तकनीकी दिग्गज द्वारा एक पेपर प्रकाशित किया गया था, और शोधकर्ताओं का दावा है कि इस वास्तुकला का उपयोग करके प्रशिक्षित एआई मॉडल ने अधिक “मानव-जैसी” मेमोरी प्रतिधारण क्षमता प्रदर्शित की है। विशेष रूप से, Google ने एआई मॉडल को प्रासंगिक जानकारी को याद रखने का तरीका सिखाने के लिए एक नई विधि विकसित करने के लिए पारंपरिक ट्रांसफार्मर और रिकरंट न्यूरल नेटवर्क (आरएनएन) आर्किटेक्चर को छोड़ दिया।

टाइटन्स एआई मॉडल की संदर्भ विंडो को 2 मिलियन से अधिक टोकन तक बढ़ा सकते हैं

परियोजना के प्रमुख शोधकर्ता, अली बेहरोज़, की तैनाती एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर नए आर्किटेक्चर के बारे में। उन्होंने दावा किया कि नया आर्किटेक्चर ध्यान के साथ एक मेटा-इन-संदर्भ मेमोरी प्रदान करता है जो एआई मॉडल को परीक्षण-समय गणना में जानकारी को याद रखना सिखाता है।

गूगल के पेपर के अनुसार, जो रहा है प्रकाशित प्री-प्रिंट ऑनलाइन जर्नल arXiv में, टाइटन्स आर्किटेक्चर एआई मॉडल की संदर्भ विंडो को दो मिलियन से अधिक टोकन तक बढ़ा सकता है। एआई डेवलपर्स के लिए मेमोरी को हल करना एक मुश्किल समस्या रही है।

मनुष्य जानकारी और घटनाओं को संदर्भ के साथ याद रखता है। यदि कोई किसी व्यक्ति से पूछता है कि उसने पिछले सप्ताहांत में क्या पहना था, तो वे अतिरिक्त प्रासंगिक जानकारी याद रख पाएंगे, जैसे कि किसी ऐसे व्यक्ति की जन्मदिन की पार्टी में भाग लेना जिसे वे पिछले 12 वर्षों से जानते हैं। इस तरह, जब अनुवर्ती पूछा जाता है इस सवाल पर कि उन्होंने पिछले सप्ताहांत भूरे रंग की जैकेट और डेनिम जींस क्यों पहनी थी, व्यक्ति इन सभी अल्पकालिक और दीर्घकालिक जानकारी के साथ इसे प्रासंगिक बनाने में सक्षम होगा।

दूसरी ओर, एआई मॉडल, आमतौर पर ट्रांसफार्मर और आरएनएन आर्किटेक्चर के लिए संशोधित पुनर्प्राप्ति-संवर्धित पीढ़ी (आरएजी) सिस्टम का उपयोग करते हैं। यह सूचना को तंत्रिका नोड्स के रूप में उपयोग करता है। इसलिए, जब एआई मॉडल से कोई प्रश्न पूछा जाता है, तो यह उस विशेष नोड तक पहुंचता है जिसमें मुख्य जानकारी होती है, साथ ही आस-पास के नोड्स जिनमें अतिरिक्त या संबंधित जानकारी हो सकती है। हालाँकि, एक बार क्वेरी हल हो जाने के बाद, प्रोसेसिंग पावर बचाने के लिए जानकारी को सिस्टम से हटा दिया जाता है।

हालाँकि, इसके दो नकारात्मक पहलू हैं। सबसे पहले, एक AI मॉडल लंबे समय तक जानकारी को याद नहीं रख सकता है। यदि कोई सत्र समाप्त होने के बाद अनुवर्ती प्रश्न पूछना चाहता है, तो उसे फिर से पूरा संदर्भ प्रदान करना होगा (मनुष्यों के कार्य करने के तरीके के विपरीत)। दूसरा, एआई मॉडल दीर्घकालिक संदर्भ से जुड़ी जानकारी प्राप्त करने का खराब काम करते हैं।

टाइटन्स एआई के साथ, बेहरोज़ और अन्य Google शोधकर्ताओं ने एक आर्किटेक्चर बनाने की कोशिश की जो एआई मॉडल को एक दीर्घकालिक मेमोरी विकसित करने में सक्षम बनाता है जिसे लगातार चलाया जा सकता है, जबकि जानकारी भूल जाती है ताकि इसे कम्प्यूटेशनल रूप से अनुकूलित किया जा सके।

इस प्रयोजन के लिए, शोधकर्ताओं ने एक आर्किटेक्चर डिज़ाइन किया जो इतिहास को तंत्रिका नेटवर्क के मापदंडों में एन्कोड करता है। तीन प्रकारों का उपयोग किया गया – मेमोरी ऐज़ कॉन्टेक्स्ट (MAC), मेमोरी ऐज़ गेटिंग (MAG), और मेमोरी ऐज़ ए लेयर (MAL)। इनमें से प्रत्येक प्रकार विशेष कार्यों के लिए उपयुक्त है।

इसके अतिरिक्त, टाइटन्स एक नई आश्चर्य-आधारित शिक्षण प्रणाली का उपयोग करता है, जो एआई मॉडल को किसी विषय के बारे में अप्रत्याशित या महत्वपूर्ण जानकारी को याद रखने के लिए कहता है। ये दो परिवर्तन टाइटन्स आर्किटेक्चर को एलएलएम में बेहतर मेमोरी फ़ंक्शन प्रदर्शित करने की अनुमति देते हैं।

एक अलग पोस्ट में, बेहरोज़ ने दावा किया कि BABILong बेंचमार्क (सुई-इन-ए-हेस्टैक दृष्टिकोण) पर आंतरिक परीक्षण के आधार पर, टाइटन्स (MAC) मॉडल GPT-4, LLama 3 + RAG जैसे बड़े AI मॉडल से बेहतर प्रदर्शन करने में सक्षम थे। और एलएलएएमए 3 70बी।




Source link

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button