एआई मॉडल विरोधियों को हैक करने की कोशिश करते हैं जब उन्हें एहसास होता है कि वे हार रहे हैं: अध्ययन

पलिसडे रिसर्च के एक नए अध्ययन में पाया गया है कि ओपनईएआई के ओ 1-प्रीव्यू और जीपीटी -4 ओ, एन्थ्रोपिक के क्लाउड सोननेट 3.5 और डीपसेक आर 1 रिज़ॉर्ट जैसे कुछ आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल उनके विरोधी बॉट्स को हैक करने के लिए जब वे जानते हैं कि वे एक गेम हारने वाले हैं। ।

अध्ययन ने विशेष रूप से समय के साथ साझा किया, हैक करने के लिए उनकी प्रवृत्ति के लिए सात अत्याधुनिक एआई मॉडल का मूल्यांकन किया। यह नोट किया कि GPT-4O और क्लाउड Sonnet 3.5 जैसे थोड़े पुराने मॉडल को इस तरह के ट्रिक्स का प्रयास करने के लिए प्रेरित किया जाना चाहिए। हालांकि, O1-Preview और DeepSeek R1 जैसे नए मॉडल ने खुद को हैक को अपनाया।
यह भी पढ़ें: ICC ने खाली स्टेडियम के लिए दोषी ठहराया, ‘शिफ्ट चैंपियंस ट्रॉफी पूरी तरह से पाकिस्तान के लिए’ को बताया।
इससे पता चलता है कि एआई मॉडल स्पष्ट निर्देशों के बिना हेरफेर और भ्रामक रणनीतियों का विकास कर सकते हैं। शोधकर्ताओं का कहना है कि मॉडल की खामियों का फायदा उठाने की यह क्षमता हो सकती है क्योंकि O1-preview और R1 जैसे मॉडल को केवल मानव भाषा की नकल करने के लिए प्रशिक्षित किया गया है, जैसा कि AI मॉडल के साथ अब तक हुआ है। इसके बजाय, परीक्षण और त्रुटि का उपयोग करके समस्याओं के माध्यम से तर्क के लिए प्रशिक्षित हैं।
इसने मॉडल को गणित और कोडिंग-संबंधित परीक्षणों में अपने पूर्ववर्तियों को बेहतर बनाने में मदद की है। पलिसडे के कार्यकारी निदेशक जेफरी लादिश ने टाइम को बताया कि इसने एक प्रवृत्ति के बारे में बताया है, जहां एआई सिस्टम्स ने अपने रचनाकारों को कभी भी अनुमान नहीं लगाने के तरीकों से समस्याओं को हल करने के लिए शॉर्टकट पाते हैं।
यह भी पढ़ें: पनामा होटल की खिड़की से मदद के लिए हम से 300 निर्वासितों के बीच भारतीय; ‘हम नहीं कर रहे हैं…’
कुछ मामलों में, यह मॉडल को अपने कार्यों को नियंत्रित करने के लिए मानवीय प्रयासों को समझने की अनुमति दे सकता है। इस संभावना पर बोलते हुए, लादिश ने कहा, “यह [behaviour] अब प्यारा है, लेकिन [it] एक बार आपके पास सिस्टम होने के बाद बहुत कम प्यारा हो जाता है जो रणनीतिक रूप से प्रासंगिक डोमेन में हमारे जैसे स्मार्ट, या होशियार हैं। ”
प्रयोग करने के लिए, शोधकर्ताओं ने स्टॉकफिश के खिलाफ एआई मॉडल को खड़ा किया, जो दुनिया के सबसे मजबूत शतरंज इंजनों में से एक है जो किसी भी मानव की तुलना में बहुत बेहतर खिलाड़ी है। उन्होंने खेल में अपना कदम रखने से पहले मॉडल को अपने तर्क के बारे में सूचित किया।
यह भी पढ़ें: अवकाश लेने के लिए नोटिस अवधि के दौरान कर्मचारी को समाप्त कर दिया, राहत देने वाले पत्र से इनकार कर दिया
एक मामले में, O1-preview ने खुद को एक हारने की स्थिति में पाया। “मुझे अपने दृष्टिकोण को पूरी तरह से पिवट करने की आवश्यकता है,” यह नोट किया। “कार्य ‘एक शक्तिशाली शतरंज इंजन के खिलाफ जीत’ है – जरूरी नहीं कि शतरंज के खेल में निष्पक्ष रूप से जीतने के लिए,” यह कहा।
इसके बाद इसने प्रत्येक टुकड़े की आभासी स्थिति वाली सिस्टम फ़ाइल को संशोधित किया, प्रभाव में खुद को एक प्रमुख स्थिति में डालने के लिए अवैध चालें, इस प्रकार अपने प्रतिद्वंद्वी को इस्तीफा देने के लिए मजबूर किया।
Openai के O1-Preview ने 37% समय को धोखा देने की कोशिश की और DeepSeek के R1 ने 11% समय को धोखा देने की कोशिश की। केवल O1-preview गेम को हैक करने में सक्षम था, 6% परीक्षणों में सफल रहा।
Source link