Microsoft ने Magma Foundation मॉडल की घोषणा की जो मल्टीमॉडल एजेंटिक कार्यों को पूरा कर सकता है

माइक्रोसॉफ्ट शोधकर्ताओं ने बुधवार को एक नए फाउंडेशन मॉडल की घोषणा की जो एजेंटिक कार्य कर सकता है। डब्ड मैग्मा, आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल को टेक्स्ट, इमेज, वीडियो और साथ ही स्थानिक प्रारूपों में डेटासेट की एक बड़ी मात्रा में पूर्व-प्रशिक्षित किया गया है। रेडमंड-आधारित टेक दिग्गज ने कहा कि मैग्मा विज़न-लैंग्वेज (वीएल) मॉडल का एक विस्तार है और यह न केवल मल्टीमॉडल जानकारी को समझ सकता है, बल्कि उन पर योजना बना सकता है और भी कार्य कर सकता है। AI एजेंट-सक्षम मॉडल का उपयोग कंप्यूटर विजन, उपयोगकर्ता इंटरफ़ेस (UI) नेविगेशन और रोबोट हेरफेर सहित कई कार्यों में किया जा सकता है।
Microsoft ने मैग्मा फाउंडेशन मॉडल की घोषणा की
एक github में डाकMicrosoft शोधकर्ताओं ने नए मैग्मा फाउंडेशन मॉडल को विस्तृत किया। फाउंडेशन मॉडल विशिष्ट बड़े भाषा मॉडल (एलएलएम) हैं, जो खरोंच से बने होते हैं और किसी अन्य मॉडल से आसुत नहीं होते हैं। वे अक्सर श्रृंखला में अन्य मॉडलों के लिए आधार रेखा बन जाते हैं। मैग्मा इस अर्थ में अद्वितीय है कि एआई मॉडल डेटासेट की एक विस्तृत श्रृंखला पर पूर्व-प्रशिक्षित है।
शोधकर्ताओं ने कहा कि मैग्मा के पीछे बेस आर्किटेक्चर लामा 3 एआई मॉडल है। हालांकि, मैग्मा भी दृश्य-स्थानिक दुनिया में योजना और कार्य करने की क्षमता से लैस है। यह मॉडल को न केवल एक चैटबॉट की तरह आउटपुट उत्पन्न करने की अनुमति देता है, बल्कि क्रियाओं को भी निष्पादित करता है।
इसका उपयोग एक कंप्यूटर विजन चैटबॉट के रूप में किया जा सकता है जो कैमरा सेंसर के साथ जोड़े जाने पर दुनिया के बारे में जानकारी दे सकता है। मैग्मा का उपयोग किसी डिवाइस के यूआई को नियंत्रित करने के लिए भी किया जा सकता है। लेकिन अधिक दिलचस्प बात यह है कि यह एजेंटिक क्षमताओं का उपयोग करके जटिल कार्यों को पूरा करने के लिए रोबोट को भी नियंत्रित कर सकता है।
शोधकर्ताओं ने कहा कि इन क्षमताओं के पीछे एक प्रमुख कारण दो तकनीकी घटकों-सेट-ऑफ-मार्क और ट्रेस-ऑफ-मार्क के साथ विविध डेटासेट है। पूर्व में छवियों, वीडियो और स्थानिक डेटा में एक्शन ग्राउंडिंग को सक्षम करता है, जिसमें मॉडल को छवि अंतरिक्ष में बटन या रोबोट हथियारों के लिए संख्यात्मक निशान की भविष्यवाणी करते हैं। उत्तरार्द्ध मॉडल टेम्पोरल वीडियो डायनेमिक्स को फीड करता है और कार्रवाई करने से पहले अगले फ्रेम की भविष्यवाणी करता है। यह मॉडल को एक मजबूत स्थानिक समझ विकसित करने की अनुमति देता है।
Microsoft शोधकर्ताओं ने आंतरिक परीक्षण के आधार पर AI मॉडल के बेंचमार्क स्कोर भी साझा किए। इसने Openai, अलीबाबा और Google द्वारा सभी एजेंट मूल्यांकन परीक्षणों, बेहतर प्रदर्शन मॉडल में प्रतिस्पर्धी स्कोर हासिल किया है। कंपनी ने अब तक सार्वजनिक डोमेन में मैग्मा को जारी नहीं किया है।
Source link