Xiaomi Mimo AI मॉडल कुशल तर्क, छोटे आकार के साथ लॉन्च किए गए

Xiaomi मंगलवार को एक ओपन-सोर्स रीज़निंग-केंद्रित आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल जारी किया। डब किए गए MIMO, रीजनिंग मॉडल का परिवार अपेक्षाकृत छोटे पैरामीटर आकार में तर्क क्षमता के अनुकूलन का नवाचार करता है। यह टेक दिग्गज द्वारा पहला ओपन-सोर्स रीज़निंग मॉडल भी है, और यह चीनी मॉडल जैसे कि डीपसेक आर 1 और अलीबाबा के क्यूवेन क्यूडब्ल्यूक्यू -32 बी, और ओपनईआई के ओ 1 और गूगल के जेमिनी 2.0 फ्लैश थिंकिंग सहित वैश्विक तर्क मॉडल के साथ प्रतिस्पर्धा करता है। MIMO परिवार में चार अलग -अलग मॉडल शामिल हैं, जिनमें से प्रत्येक में अद्वितीय उपयोग के मामले हैं।
Xiaomi के Mimo ने AI मॉडल को डीपसेक R1 के साथ प्रतिस्पर्धा करने के लिए तर्क दिया
AI मॉडल की MIMO श्रृंखला के साथ, Xiaomi शोधकर्ताओं ने AI मॉडल को तर्क देने में आकार की समस्या को हल करने का लक्ष्य रखा। तर्क मॉडल (कम से कम जिन्हें मापा जा सकता है) में लगभग 24 बिलियन या अधिक पैरामीटर होते हैं। बड़े आकार को बड़े भाषा मॉडल की कोडिंग और गणितीय क्षमताओं दोनों में समान और एक साथ सुधार प्राप्त करने के लिए रखा जाता है, कुछ छोटे मॉडलों के साथ प्राप्त करना मुश्किल माना जाता है।
इसकी तुलना में, MIMO में सात बिलियन पैरामीटर हैं, और Xiaomi का दावा है कि इसका प्रदर्शन Openai के O1-Mini से मेल खाता है और 32 बिलियन मापदंडों के साथ कई तर्क मॉडल को बेहतर बनाता है। शोधकर्ताओं ने दावा किया कि बेस एआई मॉडल को 25 ट्रिलियन टोकन पर पूर्व-प्रशिक्षित किया गया था।
शोधकर्ताओं ने दावा किया कि इस तरह की दक्षता डेटा प्रीप्रोसेसिंग पाइपलाइनों को अनुकूलित करके, पाठ निष्कर्षण टूलकिट को बढ़ाने और बहुआयामी डेटा फ़िल्टरिंग को लागू करके प्राप्त की गई थी। इसके अलावा, MIMO के पूर्व-प्रशिक्षण में तीन-चरण डेटा मिश्रण रणनीति शामिल थी।
आंतरिक परीक्षण के आधार पर, Xiaomi शोधकर्ताओं का दावा है कि MIMO-7B-Base ने 75.2 स्कोर 75.2 को बड़े-बेंच हार्ड (BBH) बेंचमार्क पर तर्क क्षमताओं के लिए स्कोर किया है। शून्य-शॉट सुदृढीकरण लर्निंग (आरएल)-आधारित MIMO-7B-RL-Zero को गणित और कोडिंग-संबंधित कार्यों में उत्कृष्टता प्राप्त करने का दावा किया गया है, और Aime बेंचमार्क पर 55.4 स्कोर, O1-Mini को 4.7 अंक से पीछे छोड़ते हैं।
जैसा कि मिमो एक ओपन-सोर्स एआई मॉडल है, इसे Xiaomi की लिस्टिंग से डाउनलोड किया जा सकता है GitHub और गले का चेहरा। तकनीकी कागज़ मॉडल की वास्तुकला के साथ-साथ पूर्व-प्रशिक्षण और प्रशिक्षण के बाद की प्रक्रियाओं का विवरण। यह एक पाठ-आधारित मॉडल है और इसमें मल्टीमॉडल क्षमताएं नहीं हैं। अधिकांश ओपन-सोर्स रिलीज़ के समान, मॉडल के डेटासेट के बारे में विवरण ज्ञात नहीं है।
Source link