एपोच एआई ने एआई मॉडल की क्षमताओं का परीक्षण करने के लिए फ्रंटियरमैथ एआई बेंचमार्क लॉन्च किया
कैलिफोर्निया स्थित शोध संस्थान एपोच एआई ने एक नया लॉन्च किया कृत्रिम होशियारी (एआई) बेंचमार्क पिछले सप्ताह। फ्रंटियरमैथ नाम का नया एआई बेंचमार्क बड़े भाषा मॉडल (एलएलएम) को उनकी पुन: सीज़निंग और गणितीय समस्या-समाधान की क्षमता पर परीक्षण करता है। एआई फर्म का दावा है कि मौजूदा गणित बेंचमार्क डेटा संदूषण और एआई मॉडल द्वारा उन पर बहुत अधिक अंक प्राप्त करने जैसे कारकों के कारण बहुत उपयोगी नहीं हैं। एपोच एआई का दावा है कि प्रमुख एलएलएम ने भी नए बेंचमार्क पर दो प्रतिशत से कम स्कोर किया है।
एपोच एआई ने फ्रंटियरमैथ बेंचमार्क लॉन्च किया
में एक डाक एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर एआई फर्म ने बताया कि उसने सैकड़ों मूल और अप्रकाशित गणित समस्याओं को बनाने के लिए 60 से अधिक गणितज्ञों के साथ सहयोग किया। एपोच एआई का दावा है कि इन सवालों को हल करने में गणितज्ञों को भी घंटों लग जाएंगे। नए बेंचमार्क को विकसित करने के पीछे का कारण GSM8K और MATH जैसे मौजूदा बेंचमार्क की सीमाएं बताई गईं, जहां AI मॉडल आम तौर पर उच्च अंक प्राप्त करते हैं।
कंपनी ने दावा किया कि एलएलएम द्वारा हासिल किए गए उच्च स्कोर काफी हद तक डेटा संदूषण के कारण हैं। इसका मतलब है कि प्रश्न किसी तरह पहले ही एआई मॉडल में फीड कर दिए गए थे, जिसके परिणामस्वरूप वे आसानी से प्रश्न हल कर सके।
फ्रंटियरमैथ नई समस्याओं को शामिल करके समस्या का समाधान करता है जो अद्वितीय हैं और कहीं भी प्रकाशित नहीं हुई हैं, जिससे डेटा संदूषण से जुड़े जोखिम कम हो जाते हैं। इसके अलावा, बेंचमार्क में संख्या सिद्धांत, वास्तविक विश्लेषण और बीजगणितीय ज्यामिति में कम्प्यूटेशनल रूप से गहन समस्याओं के साथ-साथ ज़र्मेलो-फ्रेंकेल सेट सिद्धांत जैसे विषयों सहित प्रश्नों की एक विस्तृत श्रृंखला शामिल है। एआई फर्म का कहना है कि सभी प्रश्न “अनुमान प्रमाण” हैं, जिसका अर्थ है कि उन्हें मजबूत तर्क के बिना आकस्मिक रूप से हल नहीं किया जा सकता है।
एपोच एआई ने इस बात पर प्रकाश डाला कि एआई की योग्यता को मापने के लिए, रचनात्मक समस्या-समाधान पर बेंचमार्क बनाए जाने चाहिए जहां एआई को कई चरणों में तर्क बनाए रखना होगा। विशेष रूप से, कई उद्योग दिग्गजों का मानना है कि मौजूदा बेंचमार्क यह मापने के लिए पर्याप्त नहीं हैं कि एआई मॉडल कितना उन्नत है।
ए में नए बेंचमार्क पर प्रतिक्रिया डाकनोम ब्राउन, एक ओपनएआई शोधकर्ता, जो कंपनी के ओ1 मॉडल के पीछे थे, ने नए बेंचमार्क का स्वागत किया और कहा, “मुझे फ्रंटियर मॉडल के लिए इतनी कम पास दर के साथ एक नया ईवल देखना पसंद है।”
नवीनतम के लिए तकनीकी समाचार और समीक्षागैजेट्स 360 को फॉलो करें एक्स, फेसबुक, WhatsApp, धागे और गूगल समाचार. गैजेट और तकनीक पर नवीनतम वीडियो के लिए, हमारी सदस्यता लें यूट्यूब चैनल. यदि आप शीर्ष प्रभावशाली व्यक्तियों के बारे में सब कुछ जानना चाहते हैं, तो हमारे इन-हाउस को फ़ॉलो करें वह360 कौन है? पर Instagram और यूट्यूब.