कृत्रिम बुद्धीमत्ता अर्थात ‘एआय’ हा सध्या चर्चेत असलेला मुद्दा आहे. खासकरुन ओपन एआय कंपनीने (OpenAI) चॅट जीपीटी (ChatGPT) हे बाजारात आणल्यानंतर या साऱ्या मुद्यांवरची चर्चा अधिकच वाढली. अवघ्या काही महिन्यांपूर्वी वापरास उपलब्ध झालेले चॅट जीपीटी बघता बघता अनेकांच्या दैनंदिन वापराचा भागही झाले आहे. त्यामध्ये अगदी कमी कालावधीमध्ये प्रचंड गतीने विकास देखील होत आहे. सुरुवातीला आलेली चॅट जीपीटीची आवृत्ती ही निव्वळ मजकूरावर प्रक्रिया करू शकत होती. मात्र, आता त्यामध्ये नवनव्या सुविधा विकसित होत असून कृत्रिम बुद्धीमत्तेच्या जगतात अचाट करुन टाकणारे बदल होत आहेत. आता चॅट जीपीटीची अशीच एक नवीन आवृत्ती बाजारात आली आहे. DALL-E सोबत एकत्र आल्याने चॅट जीपीटी आता अगदी नेहमीच्या भाषेतून प्रॉम्प्ट (सूचना) दिल्यानंतर प्रतिमांची निर्मितीदेखील करू शकते.
वापरकर्त्याने सूचना दिल्यानंतर नव्याने एखादी प्रतिमा तयार करणे ही एक गोष्ट झालीच, मात्र त्यासोबतच एखादी जुनी प्रतिमाही त्याला पुरवली तर त्याचाही अर्थ उलगडण्याचे काम चॅट जीपीटीची नवी आवृत्ती करु शकते. उदाहरणार्थ, काहीवेळा एखाद्या जुन्या पुस्तकातील वा माहितीपत्रकावरील प्रतिमांचा अर्थ लावण्याची गरज भासते. तर तेही काम आता चॅट जीपीटीच्या नव्या आवृत्तीच्या वापरामुळे सोपे झाले आहे. कारण एकतर अशा एखाद्या प्रतिमेचे विश्लेषण करणे बरेचदा कठीण आणि वेळखाऊ काम असते. मात्र, आता ‘जीपीटी – ४ व्हीजन’मुळे ते काम अगदी सहज आणि लीलया पार पडू शकते.
सप्टेंबर २०२३ मध्ये, ओपन एआयने दोन नव्या सुविधा समाविष्ट केल्या होत्या. एक म्हणजे यामध्ये वापरकर्त्याला प्रतिमेबद्दल प्रश्न विचारता येऊ लागले आणि दुसरे म्हणजे प्रश्न विचारण्यासाठी बोलण्याची सुविधा देखील देऊ केली आहे. गेल्या नोव्हेंबरमध्ये, ओपन एआय कंपनीने द्रष्टेपणा दाखवत API च्या प्रवेशासह ‘जीपीटी – ४ व्हीजन’ची घोषणा केली. आपण आता ‘जीपीटी – ४ व्हीजन’च्या तंत्रज्ञानावर आणि त्याच्या मर्यादांवर देखील एक नजर टाकणार आहोत.
जीपीटी -४ व्हीजन नक्की आहे तरी काय?
‘जीपीटी – ४ व्हीजन’ यालाच ‘जीपीटी – ४ व्ही’ असेदेखील संबोधले जाते. यामध्ये वापरकर्त्यांना प्रतिमांचे विश्लेषण करता येते. ओपन एआयच्या संशोधनात्मक अहवालानुसार, “चॅट जीपीटीसारख्या मोठ्या भाषा मॉडेलमध्ये एखादी अतिरिक्त कृती करण्याची सुविधा मिळणे हे देखील एक मोठे पाऊल मानले जाते. त्यामुळे, आता त्यामध्ये प्रतिमा समाविष्ट करण्याची सुविधा प्राप्त झाल्याने हे नक्कीच एक मोठे यश आहे.”
जीपीटी – ४ व्हीजन हे चॅट बॉट मल्टीमॉडेल तयार करण्याच्या दिशेने टाकलेले एक मोठे पाऊल असल्याचे मानले जात आहे. यामध्ये प्रतिमा, मजकूर, ध्वनी यांचा वापर सहजपणे करता येऊ शकतो. यामध्ये वापरकर्त्यांना सूचना देण्यासाठी प्रतिमांचा वापर करता येऊ शकतो, तसेच त्याबद्दल प्रश्नही विचारता येऊ शकतात. या प्रक्रियेला ‘दृष्यात्मक प्रश्नांची उत्तरे देण्याची प्रक्रिया’ (Visual Question Answering – VQA) असे म्हणतात.
प्रतिमा, मजकूर आणि ध्वनी अशा तिन्ही गोष्टींवर करणार प्रक्रिया
जीपीटी – ४ व्हीजन हे एक ‘लार्ज मल्टीमोडल मॉडेल’ (LLM) आहे. हे मूलत: असे एक मॉडेल आहे, जे मजकूर आणि प्रतिमा किंवा मजकूर आणि ध्वनी यांसारख्या अनेक पद्धतींमध्ये माहिती घेण्यास आणि त्यावर प्रक्रिया करून प्रतिसाद निर्माण करण्याची क्षमता बाळगून आहे. मात्र, तंत्रज्ञानाचा विचार करता हा पहिला आणि एकमेव असा LMM नाही. CogVLM, LLaVA, Kosmos-2, इत्यादींसारखे इतरही अनेक LLM आहेत. LMM ला मल्टीमोडल लार्ज लँग्वेज मॉडेल (MLLMs) म्हणूनदेखील ओळखले जाते.
जीपीटी – ४ च्या प्रमुख क्षमता काय आहेत?
जीपीटी – ४ व्हीजनमध्ये छायाचित्रे, स्क्रीनशॉट आणि दस्तऐवजांसह दृश्य सामग्रीवर प्रक्रिया करणे यांसारख्या काही महत्त्वाच्या क्षमता समाविष्ट आहेत. या नव्या क्षमतांमुळे याला प्रतिमांमधील वस्तू ओळखणे आणि आलेख, तक्ते आणि दृश्यामधील इतर विदांचा अर्थ लावणे आणि विश्लेषण करणे यासारखी अनेक कार्ये करता येतात. जीपीटी – ४ व्हीजन प्रतिमांमध्ये समाविष्ट असलेल्या हस्तलिखित आणि मुद्रित मजकुराचादेखील अर्थ लावू शकते. कृत्रिम बुद्धिमत्तेच्या क्षेत्रामधील ही एक महत्त्वाची झेप आहे. कारण ती दृश्यात्मक समज आणि मजकूराचे विश्लेषण यांच्यातील अंतर अधिकाधिक कमी करते.
जीपीटी -४ व्हीजन वापरकर्त्यांना कशाप्रकारे मदत करू शकते?
‘द इंडियन एक्स्प्रेस’ला असे आढळून आले आहे की, जीपीटी – ४ व्हीजन हे संशोधक, वेब डेव्हलपर, विदा विश्लेषक आणि ‘कंटेट क्रिएटर्स’साठी एक सोयीचे साधन ठरू शकते. दृश्य क्षमतांचा वापर करुन प्रगत भाषा मॉडेलिंगच्या मदतीने जीपीटी – ४ व्हीजनचा वापर शैक्षणिक संशोधनात, विशेषत: ऐतिहासिक कागदपत्रे आणि हस्तलिखितांचा अर्थ लावण्यात होऊ शकतो.
अशाप्रकारची कामे वेळखाऊ असल्याने ती तज्ज्ञांच्या गटाद्वारे केली जातात. मात्र, जीपीटी – ४ हे काम सहजतेने करू शकते. विशेष म्हणजे ते वेळदेखील घेत नाही. अगदी काही सेकंदात ते निष्कर्ष आपल्यासमोर ठेवते. शिवाय त्यामधील अचूकता वाढवण्यासाठी वापरकर्ते त्याचे निष्कर्ष अनेक वेळा पडताळून घेऊ शकतात.
त्याचप्रमाणे जीपीटी – ४ व्हीजनचा वापर करून वेब डेव्हलपर आता संकेतस्थळांसाठी फक्त डिझाइनच्या दृश्य प्रतिमेवरून कोड लिहू शकतात. मग ते त्यासाठी एखादी कच्ची रेखाकृतीदेखील वापरु शकतात. हे मॉडेल कागदावरील डिझाइन वाचून संकेतस्थळासाठी कोडची निर्मिती करण्यासाठी देखील सक्षम आहे. विदेचा अर्थ लावणे हा कामाचा महत्त्वाचा भाग ठरतो. त्यामध्येही हे मॉडेल आश्चर्यकारक पद्धतीने कार्य करू शकते. कारण हे मॉडेल दृश्य आणि चित्रात्मक गोष्टींचाही अर्थ लावू शकते आणि त्याचे विश्लेषण करू शकते. थोडक्यात, जीपीटी – ४ व्हीजन आणि DALL-E 3 चे एकत्रित संयोजन होण्यामुळे ‘कंटेट क्रिएटर्स’ना समाजमाध्यमांसाठी आपली सर्जनशीलता अधिक वाढवण्यासाठी चांगलीच मदत होऊ शकते.
जीपीटी – ४ व्हीजनच्या मर्यादा काय आहेत?
ओपन एआयने हे मान्य केले आहे की, जीपीटी – ४ ने केलेली ही प्रगती नक्कीच अचूकता आणि विश्वासार्हतेच्या बाबतीत लक्षणीय झेप ठरते. मात्र, त्याने समोर ठेवलेले निष्कर्ष आणि विश्लेषण हे नेहमीच १०० टक्के अचूक आणि परिपूर्ण असतीलच असे नाही. कारण हे मॉडेलदेखील चुका करू शकते. त्यामुळेच त्याने प्रदान केलेले निष्कर्ष पुन्हा पडताळून पाहणे गरजेचे ठरते.
प्रतिमांमधील विशिष्ट व्यक्तींची ओळख टाळण्यासाठी मॉडेलला प्रशिक्षित केले गेले आहे. यालाच ओपन एआय डिझाइनद्वारे ‘रिफ्यूजल बिहेव्हिअर’ असे म्हणतात. याच्या असलेल्या मर्यादा आणि विसंगती ओळखून कंपनीने काही सूचनाही केल्या आहेत. त्यामध्ये अचूक वैज्ञानिक, वैद्यकीय आणि संवेदनशील विषयांच्या विश्लेषणासाठी याचा वापर करू नये, असे त्यांचे म्हणणे आहे.