Source TOI
नई दिल्ली: Google DeepMind ने आर्टिफिशियल इंटेलिजेंस (AI) की दुनिया में एक बड़ी छलांग लगाते हुए अपने नए और विशेषीकृत AI मॉडल Gemini 2.5 Computer Use को लॉन्च कर दिया है। यह नया मॉडल Gemini 2.5 Pro की उन्नत विजुअल अंडरस्टैंडिंग (visual understanding) और रीजनिंग क्षमताओं पर आधारित है, और इसे खास तौर पर वेब ब्राउज़रों के साथ इंसानों की तरह इंटरैक्ट करने के लिए डिज़ाइन किया गया है।
यह AI मॉडल अब डेवलपरों के लिए Gemini API, Google AI Studio और Vertex AI के माध्यम से उपलब्ध है। इसकी सबसे महत्वपूर्ण क्षमता यह है कि यह यूज़र इंटरफ़ेस (UI) को “देख” सकता है और प्रतिक्रिया दे सकता है, जिससे यह ब्राउज़र के अंदर जटिल कार्यों को स्वचालित (automate) रूप से पूरा कर सकता है।
इंसानों की तरह करेगा काम
Gemini 2.5 Computer Use मॉडल यूज़र के अनुरोध को प्राकृतिक भाषा में समझता है और फिर उन कार्यों को पूरा करने के लिए आवश्यक UI क्रियाएँ (actions) उत्पन्न करता है। इन क्रियाओं में शामिल हैं:
क्लिक करना (Clicking)
टाइप करना (Typing)
स्क्रॉल करना (Scrolling)
फॉर्म भरना और सबमिट करना (Filling and submitting forms)
ड्रॉपडाउन मेनू को इस्तेमाल करना (Manipulating dropdown menus)
यह एक ‘एजेंट लूप’ (agent loop) प्रक्रिया में काम करता है, जहाँ यह स्क्रीनशॉट (screenshot) को इनपुट के रूप में लेता है, अगले आवश्यक एक्शन का अनुमान लगाता है, उसे क्रियान्वित (execute) करता है, और फिर अपडेटेड स्क्रीन को देखकर आगे की कार्रवाई तय करता है। यह फीडबैक लूप इसे एक इंसान की तरह ब्राउज़र में नेविगेट करने की अनुमति देता है।
उपयोग और सीमाएँ
यह मॉडल वेब एप्लीकेशन टेस्टिंग, डेटा एंट्री को स्वचालित करने और कई वेबसाइटों पर रिसर्च करने जैसे कार्यों के लिए उत्कृष्ट है। गूगल का दावा है कि यह कई वेब और मोबाइल कंट्रोल बेंचमार्क पर अपने प्रतिस्पर्धियों से बेहतर प्रदर्शन करता है और इसकी लेटेंसी (latency) भी कम है।
हालांकि, गूगल ने स्पष्ट किया है कि यह मॉडल वर्तमान में केवल ब्राउज़र तक ही पहुंच सकता है और इसे अभी तक डेस्कटॉप ऑपरेटिंग सिस्टम (OS) स्तर के नियंत्रण के लिए अनुकूलित नहीं किया गया है। इसके अलावा, यह वर्तमान में केवल 13 क्रियाओं (actions) का समर्थन करता है।
Gemini 2.5 Computer Use डिजिटल दुनिया में जटिल कार्यों को स्वचालित करने की दिशा में एक महत्वपूर्ण कदम है और यह AI एजेंटों को हमारे कंप्यूटिंग अनुभव का एक सक्रिय और सहायक हिस्सा बनाने के गूगल के प्रयासों को दर्शाता है।
