AI का रिपोर्ट कार्ड, चलिए समझते हैं! रैंकिंग के पीछे छिपे ‘मूल्यांकन’ के रहस्य

AI का रिपोर्ट कार्ड, चलिए समझते हैं! रैंकिंग के पीछे छिपे ‘मूल्यांकन’ के रहस्य

AI का रिपोर्ट कार्ड, चलिए समझते हैं!

आइए रैंकिंग के पीछे छिपे ‘मूल्यांकन’ के रहस्यों पर एक नज़र डालें

इस लेख का सारांश 📝

“यह AI दुनिया में सबसे होशियार है!” “नया AI रैंकिंग में नंबर 1 पर आ गया!”… आप अक्सर ऐसी खबरें देखते होंगे, है ना?

लेकिन, यह ‘होशियारी’ आखिर कौन और कैसे तय करता है? यह लेख AI के प्रदर्शन को मापने के लिए इस्तेमाल होने वाले विभिन्न “मूल्यांकन के तरीकों” के पीछे की कहानी को उजागर करेगा, जिसे AI की जानकारी न रखने वाले भी आसानी से समझ सकेंगे। इसे पढ़ने के बाद, आपको AI से जुड़ी खबरें और भी दिलचस्प और गहरी लगेंगी!

अध्याय 1: AI का स्कोरकार्ड कैसे तय होता है? मूल्यांकन की मूल बातें

AI की क्षमताओं को मापने का कोई एक तरीका नहीं है। मोटे तौर पर, इसे दो भागों में बांटा जा सकता है: एक तरीका जिसमें इंसान सीधे जाँच करते हैं और दूसरा जिसमें AI को एक निर्धारित टेस्ट हल करने के लिए दिया जाता है। चलिए, पहले इन बुनियादी अवधारणाओं को समझते हैं!

🧑‍⚖️

इंसानों द्वारा सीधी जाँच

(विवरण के लिए कार्ड पर टैप करें)

मानव मूल्यांकन

मानव विशेषज्ञ सीधे यह देखते हैं कि AI द्वारा लिखा गया टेक्स्ट स्वाभाविक है या नहीं, और क्या यह सवाल के इरादे को समझ रहा है। यह रचनात्मकता और संदर्भ की बारीकियों का मूल्यांकन कर सकता है, जो AI के लिए मुश्किल है। इसलिए, इसे मूल्यांकन का “गोल्ड स्टैंडर्ड (सबसे विश्वसनीय मानक)” कहा जाता है। हालांकि, इसमें बहुत समय और पैसा लगता है।

📝

AI के लिए ‘कॉमन टेस्ट’

(विवरण के लिए कार्ड पर टैप करें)

बेंचमार्क मूल्यांकन

AI को पहले से तैयार किए गए स्टैंडर्ड टेस्ट (बेंचमार्क), जैसे गणित या विज्ञान के क्विज़, हल करने के लिए दिए जाते हैं और फिर स्कोर किया जाता है। यह विभिन्न AI की तुलना एक ही स्तर पर करने की अनुमति देता है, जिससे निष्पक्ष तुलना संभव होती है। आजकल, हम डेवलपर्स के बीच इस बेंचमार्क स्कोर को बेहतर बनाने की होड़ लगी रहती है।

टेस्ट की मार्किंग स्कीम: अक्सर सुने जाने वाले ‘मूल्यांकन मेट्रिक्स’ की आसान व्याख्या

जब “टेस्ट” होता है, तो “मार्किंग के नियम” भी होते हैं। AI मूल्यांकन में, कुछ दिलचस्प नामों वाले नियमों का उपयोग किया जाता है। यहाँ कुछ प्रमुख उदाहरण दिए गए हैं।

संक्षेप में: यह “सही जवाबों का सरल अनुपात” है।

व्याख्या: यह सबसे बुनियादी और समझने में आसान मीट्रिक है। यह स्कूल के सही/गलत या बहुविकल्पीय प्रश्नों की तरह है। उदाहरण के लिए, यदि कोई AI इतिहास या कानून पर 100 बहुविकल्पीय प्रश्नों वाले क्विज़ (MMLU नामक एक प्रसिद्ध बेंचमार्क में प्रयुक्त प्रारूप) में से 90 का सही उत्तर देता है, तो उसकी “Accuracy 90%” होगी। इसका उपयोग अक्सर ज्ञान की चौड़ाई को मापने वाले परीक्षणों में किया जाता है।
संक्षेप में: “कई मौके दिए जाते हैं, और यदि एक भी सफल होता है, तो आप पास हो जाते हैं!”

व्याख्या: इसका उपयोग मुख्य रूप से प्रोग्रामिंग समस्याओं को हल करने वाले परीक्षणों (HumanEval आदि) में किया जाता है। उदाहरण के लिए, “Pass@3” में, AI को 3 बार प्रोग्राम कोड बनाने के लिए कहा जाता है, और यदि उनमें से कोई एक भी सही ढंग से काम करता है, तो उसे “सफल” माना जाता है। यह एक ही बार में सही उत्तर देने के बजाय, कई प्रयासों के माध्यम से सही समाधान तक पहुँचने की क्षमता का मूल्यांकन करता है।
संक्षेप में: यह शब्दों के स्तर पर यह तुलना करने का एक तरीका है कि “AI द्वारा बनाया गया पाठ एक आदर्श उत्तर से कितना मिलता-जुलता है।”

व्याख्या: इसका उपयोग पारंपरिक रूप से मशीन अनुवाद (BLEU) और पाठ सारांश (ROUGE) के मूल्यांकन में किया जाता रहा है। यह AI द्वारा उत्पन्न पाठ की तुलना मानव द्वारा बनाए गए मॉडल उत्तर से करता है और शब्दों या छोटे वाक्यांशों के मिलान के आधार पर स्कोर देता है। हालांकि, इसकी एक कमजोरी यह है कि यह उन वाक्यों के अर्थ की बारीकियों को नहीं समझ सकता है जिनका अर्थ समान है लेकिन अभिव्यक्ति अलग है।

अध्याय 2: मूल्यांकन के दो प्रमुख स्टाइल

AI मूल्यांकन के तरीकों में मोटे तौर पर दो स्कूल ऑफ थॉट हैं। एक है “बैटल फॉर्मेट”, जहां AI एक-दूसरे से मुकाबला करते हैं और विजेता का फैसला मानवीय पसंद के आधार पर होता है। दूसरा है “एग्जाम फॉर्मेट”, जहां AI को एक निर्धारित समस्या हल करने के लिए दी जाती है। आइए उनकी विशेषताओं की तुलना करें!

🥊 बैटल फॉर्मेट

Chatbot Arena स्टाइल

यह एक व्यावहारिक मूल्यांकन शैली है जहां उपयोगकर्ता की “पसंद” के आधार पर विजेता तय किया जाता है।

  • 📝तरीका: उपयोगकर्ता दो अज्ञात AI के साथ स्वतंत्र रूप से बातचीत करते हैं और जिसे वे बेहतर समझते हैं, उसे वोट देते हैं।
  • 👍विशेषता: यह वास्तविक दुनिया के विविध प्रश्नों के प्रति AI की ताकत को दर्शाता है। इसे “टेस्ट के लिए रटना” मुश्किल माना जाता है और यह निष्पक्ष होता है।
  • 🤔कमजोरी: इसमें ऐसे AI को पसंद किया जाता है जो आत्मविश्वास से भरपूर और “बातूनी” होते हैं, भले ही उनके उत्तर सही न हों।

🏫 एग्जाम फॉर्मेट

Hugging Face Leaderboard स्टाइल

यह एक “कॉमन टेस्ट” शैली है जहां हर कोई वस्तुनिष्ठ क्षमता को मापने के लिए एक ही समस्या हल करता है।

  • 📝तरीका: सभी AI विज्ञान और गणित जैसे कई निर्धारित बेंचमार्क को समान शर्तों के तहत हल करते हैं, और उनके स्कोर की तुलना की जाती है।
  • 👍विशेषता: इसकी ताकत यह है कि यह वस्तुनिष्ठ है और इसकी “पुनरुत्पादन क्षमता” (reproducibility) उच्च है, जिसका अर्थ है कि कोई भी इसे आजमाए, परिणाम वही रहेगा। अनुसंधान की प्रगति को ट्रैक करना भी आसान है।
  • 🤔कमजोरी: “डेटा कंटैमिनेशन” का जोखिम और टेस्ट का बहुत आसान हो जाना (“संतृप्ति”) जैसी समस्याएं हैं।

अध्याय 3: मूल्यांकन का सबसे नया तरीका? AI जो AI को स्कोर देता है – ‘AI टीचर’

मानव मूल्यांकन सटीक तो है, लेकिन बहुत मुश्किल! इस समस्या को हल करने के लिए, “AI द्वारा अन्य AI का मूल्यांकन” करने का एक तरीका सामने आया है, जो किसी साइंस फिक्शन जैसा लगता है। इसे “LLM-as-a-Judge” कहा जाता है।

🧑‍🏫
नमस्ते! मैं एक “AI टीचर” या मूल्यांकनकर्ता AI हूँ। मैं अन्य AI के उत्तरों को स्कोर करता हूँ।
🧑‍🏫
हमें इसलिए इस्तेमाल किया जाता है क्योंकि हम इंसानों की तुलना में तेजी से, सस्ते में और बड़ी मात्रा में मूल्यांकन कर सकते हैं। यह इस विचार पर आधारित है कि स्क्रैच से उत्तर बनाने की तुलना में मौजूदा उत्तर का मूल्यांकन करना आसान है।
🧑‍🏫
शोध के अनुसार, हमारा मूल्यांकन मानव मूल्यांकनकर्ताओं के साथ 80% से अधिक मेल खाता है। यह कभी-कभी मनुष्यों के बीच आपसी सहमति से भी अधिक होता है।

“AI टीचर” की कमजोरियाँ: क्या यह पक्षपाती और गलत हो सकता है?

लेकिन इस “AI टीचर” की भी कमजोरियाँ हैं। दरअसल, इसकी आदतें काफी अजीब हो सकती हैं…

🚨 AI टीचर का बायस क्विज़ 🚨

आपको क्या लगता है कि “AI टीचर” किस तरह का पक्षपात कर सकता है? उत्तर देखने के लिए क्लिक करें!

Q. यह अपनी ही सीरीज के AI के जवाब और एक अनजान AI के जवाब में से किसे ज्यादा अंक देगा?
▼ उत्तर देखें
A. अपनी ही सीरीज के AI को।
इसे “सेल्फ-प्रेफरेंस बायस” कहा जाता है, जिसमें यह अपने जैसी शैली वाले टेक्स्ट को पसंद करता है। यह भाई-भतीजावाद जैसा है!
Q. यह एक संक्षिप्त और सटीक उत्तर और एक लंबे और विस्तृत दिखने वाले उत्तर में से किसे बेहतर मानेगा?
▼ उत्तर देखें
A. लंबे और विस्तृत दिखने वाले उत्तर को।
यह “वर्बोसिटी बायस” (अत्यधिक शब्द प्रयोग का पक्षपात) है। भले ही सामग्री सटीक न हो, यह सिर्फ लंबा होने के कारण उच्च स्कोर दे सकता है।

अध्याय 4: AI मूल्यांकन का ‘पर्दे के पीछे का सच’: ध्यान रखने योग्य बातें

हमने अब तक विभिन्न मूल्यांकन विधियों को देखा है, लेकिन AI मूल्यांकन की दुनिया में कुछ बड़ी चुनौतियाँ भी हैं। इन्हें जानने से आपको AI समाचारों को अधिक गहराई और आलोचनात्मक दृष्टि से देखने में मदद मिलेगी।

क्या टेस्ट के सवाल पहले ही लीक हो गए हैं? “डेटा कंटैमिनेशन”

यह AI मूल्यांकन में सबसे बड़ी समस्याओं में से एक है। AI इंटरनेट पर भारी मात्रा में डेटा से सीखता है, है ना? इस डेटा में, मूल्यांकन के लिए उपयोग किए जाने वाले बेंचमार्क के परीक्षण प्रश्न अनजाने में शामिल हो सकते हैं।

उदाहरण के लिए…
यह वैसा ही है जैसे प्रवेश परीक्षा से पहले, आप प्रश्नों और उत्तरों वाली एक गाइडबुक को रट लेते हैं। इससे आपकी वास्तविक क्षमता का पता नहीं चल सकता। AI शायद समस्या को “हल” नहीं कर रहा है, बल्कि केवल “याद किए गए उत्तर बता रहा है”।

परिणाम हर बार क्यों बदलते हैं? “पुनरुत्पादन (Reproducibility) की चुनौती”

विज्ञान के प्रयोगों में “पुनरुत्पादन” महत्वपूर्ण है, जिसका अर्थ है कि कोई भी, कभी भी प्रयोग करे, परिणाम समान होना चाहिए। हालांकि, AI की दुनिया में, विशेष रूप से कंपनियों द्वारा प्रदान किए गए AI के लिए, यह बहुत मुश्किल है।

ऐसा इसलिए है क्योंकि बंद मॉडल बिना किसी सूचना के लगातार अपडेट होते रहते हैं। जिस GPT-4 का मैंने कल परीक्षण किया था और जिस GPT-4 का आप आज उपयोग कर रहे हैं, वह पहले से ही एक अलग मॉडल हो सकता है। यह मूल्यांकन की तुलना करना मुश्किल बना देता है।

निष्कर्ष: AI के रिपोर्ट कार्ड को कैसे देखें?

अब तक, हमने AI के विभिन्न मूल्यांकन तरीकों और उनके पीछे की कहानी को देखा है। सबसे महत्वपूर्ण निष्कर्ष जो हम आपको बताना चाहते हैं, वह यह है:

“सिर्फ एक लीडरबोर्ड ही अंतिम सत्य नहीं है”

हर मूल्यांकन पद्धति के अपने फायदे और, जैसा कि हमने देखा, गंभीर कमियां हैं।

  • एग्जाम फॉर्मेट में उच्च रैंक यह संकेत दे सकता है कि AI अकादमिक परीक्षणों में अच्छा है।
  • बैटल फॉर्मेट में उच्च रैंक यह संकेत दे सकता है कि AI इंसानों को पसंद आने वाली बातचीत में माहिर है।

लेकिन दोनों में से कोई भी आपके उद्देश्य के लिए “वास्तविक उपयोगिता” की गारंटी नहीं देता है।
इसलिए, रैंकिंग देखते समय, यह सोचना महत्वपूर्ण है, “यह स्कोर किस विधि से मापा गया था?” और एक आलोचनात्मक दृष्टिकोण अपनाना। AI का मूल्यांकन लगातार विकसित होता रहेगा। उस विकास को देखना भी AI की दुनिया का एक मजेदार हिस्सा हो सकता है!

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *