कृत्रिम बुद्धीमत्ता अर्थात ‘एआय’ हा सध्या चर्चेत असलेला मुद्दा आहे. खासकरुन ओपन एआय कंपनीने (OpenAI) चॅट जीपीटी (ChatGPT) हे बाजारात आणल्यानंतर या साऱ्या मुद्यांवरची चर्चा अधिकच वाढली. अवघ्या काही महिन्यांपूर्वी वापरास उपलब्ध झालेले चॅट जीपीटी बघता बघता अनेकांच्या दैनंदिन वापराचा भागही झाले आहे. त्यामध्ये अगदी कमी कालावधीमध्ये प्रचंड गतीने विकास देखील होत आहे. सुरुवातीला आलेली चॅट जीपीटीची आवृत्ती ही निव्वळ मजकूरावर प्रक्रिया करू शकत होती. मात्र, आता त्यामध्ये नवनव्या सुविधा विकसित होत असून कृत्रिम बुद्धीमत्तेच्या जगतात अचाट करुन टाकणारे बदल होत आहेत. आता चॅट जीपीटीची अशीच एक नवीन आवृत्ती बाजारात आली आहे. DALL-E सोबत एकत्र आल्याने चॅट जीपीटी आता अगदी नेहमीच्या भाषेतून प्रॉम्प्ट (सूचना) दिल्यानंतर प्रतिमांची निर्मितीदेखील करू शकते.

वापरकर्त्याने सूचना दिल्यानंतर नव्याने एखादी प्रतिमा तयार करणे ही एक गोष्ट झालीच, मात्र त्यासोबतच एखादी जुनी प्रतिमाही त्याला पुरवली तर त्याचाही अर्थ उलगडण्याचे काम चॅट जीपीटीची नवी आवृत्ती करु शकते. उदाहरणार्थ, काहीवेळा एखाद्या जुन्या पुस्तकातील वा माहितीपत्रकावरील प्रतिमांचा अर्थ लावण्याची गरज भासते. तर तेही काम आता चॅट जीपीटीच्या नव्या आवृत्तीच्या वापरामुळे सोपे झाले आहे. कारण एकतर अशा एखाद्या प्रतिमेचे विश्लेषण करणे बरेचदा कठीण आणि वेळखाऊ काम असते. मात्र, आता ‘जीपीटी – ४ व्हीजन’मुळे ते काम अगदी सहज आणि लीलया पार पडू शकते.

Documentary, Solving Puzzles, Puzzles,
आम्ही डॉक्युमेण्ट्रीवाले: कोडे सोडवण्याची गंमत…
Nana Patole On Devendra Fadnavis :
Nana Patole : निकालाआधी राजकीय घडामोडींना वेग; यातच…
Govt Issues New Rules To Stop Misleading Ads By Coaching classes
विश्लेषण : शिकवणी वर्गांच्या जाहिरातींना चाप?
New Maruti Suzuki Dzire cheapest model price its features Engine and design
New Maruti Suzuki Dzire: मारुतीच्या नवीन डिझायरला मोठी पसंती, सगळ्यात स्वस्त मॉडेल घेण्यासाठी ग्राहकांची लागली रांग
celebrated Diwali in America for the first time watch video
Video: भाऊ कदम यांच्या लेकीने पहिल्यांदाच कुटुंबापासून दूर राहून अमेरिकेत ‘अशी’ साजरी केली दिवाळी, पाहा व्हिडीओ
alia bhatt diwali yellow saree is plant dyed and recycled from florals
झेंडुच्या फुलांचा असाही पुनर्वापर! आलिया भट्टने दिवाळीला नेसलेल्या साडीत काय आहे खास? किंमत ऐकून व्हाल थक्क
Bluetooth 6.0 introduces channel sounding
Bluetooth 6.0 लेटेस्ट व्हर्जन, ऑडिओ, व्हिडीओ ते डॉक्युमेंट्स शेअर करण्याची असणार सोय; कोणत्या फोन, डिव्हाईसमध्ये चालेल?
loksatta kutuhal artificial intelligence for scientific data analysis
कुतूहल – शास्त्रीय संशोधन : विश्लेषणासाठी कृत्रिम बुद्धिमत्ता

सप्टेंबर २०२३ मध्ये, ओपन एआयने दोन नव्या सुविधा समाविष्ट केल्या होत्या. एक म्हणजे यामध्ये वापरकर्त्याला प्रतिमेबद्दल प्रश्न विचारता येऊ लागले आणि दुसरे म्हणजे प्रश्न विचारण्यासाठी बोलण्याची सुविधा देखील देऊ केली आहे. गेल्या नोव्हेंबरमध्ये, ओपन एआय कंपनीने द्रष्टेपणा दाखवत API च्या प्रवेशासह ‘जीपीटी – ४ व्हीजन’ची घोषणा केली. आपण आता ‘जीपीटी – ४ व्हीजन’च्या तंत्रज्ञानावर आणि त्याच्या मर्यादांवर देखील एक नजर टाकणार आहोत.

हेही वाचा : ‘हेपिटायटिस’ या संसर्गजन्य आजारामुळे दररोज ३,५०० लोकांचा मृत्यू; हा आजार काय आहे? जाणून घ्या त्याची लक्षणे आणि उपाय

जीपीटी -४ व्हीजन नक्की आहे तरी काय?

‘जीपीटी – ४ व्हीजन’ यालाच ‘जीपीटी – ४ व्ही’ असेदेखील संबोधले जाते. यामध्ये वापरकर्त्यांना प्रतिमांचे विश्लेषण करता येते. ओपन एआयच्या संशोधनात्मक अहवालानुसार, “चॅट जीपीटीसारख्या मोठ्या भाषा मॉडेलमध्ये एखादी अतिरिक्त कृती करण्याची सुविधा मिळणे हे देखील एक मोठे पाऊल मानले जाते. त्यामुळे, आता त्यामध्ये प्रतिमा समाविष्ट करण्याची सुविधा प्राप्त झाल्याने हे नक्कीच एक मोठे यश आहे.”

जीपीटी – ४ व्हीजन हे चॅट बॉट मल्टीमॉडेल तयार करण्याच्या दिशेने टाकलेले एक मोठे पाऊल असल्याचे मानले जात आहे. यामध्ये प्रतिमा, मजकूर, ध्वनी यांचा वापर सहजपणे करता येऊ शकतो. यामध्ये वापरकर्त्यांना सूचना देण्यासाठी प्रतिमांचा वापर करता येऊ शकतो, तसेच त्याबद्दल प्रश्नही विचारता येऊ शकतात. या प्रक्रियेला ‘दृष्यात्मक प्रश्नांची उत्तरे देण्याची प्रक्रिया’ (Visual Question Answering – VQA) असे म्हणतात.

प्रतिमा, मजकूर आणि ध्वनी अशा तिन्ही गोष्टींवर करणार प्रक्रिया

जीपीटी – ४ व्हीजन हे एक ‘लार्ज मल्टीमोडल मॉडेल’ (LLM) आहे. हे मूलत: असे एक मॉडेल आहे, जे मजकूर आणि प्रतिमा किंवा मजकूर आणि ध्वनी यांसारख्या अनेक पद्धतींमध्ये माहिती घेण्यास आणि त्यावर प्रक्रिया करून प्रतिसाद निर्माण करण्याची क्षमता बाळगून आहे. मात्र, तंत्रज्ञानाचा विचार करता हा पहिला आणि एकमेव असा LMM नाही. CogVLM, LLaVA, Kosmos-2, इत्यादींसारखे इतरही अनेक LLM आहेत. LMM ला मल्टीमोडल लार्ज लँग्वेज मॉडेल (MLLMs) म्हणूनदेखील ओळखले जाते.

जीपीटी – ४ च्या प्रमुख क्षमता काय आहेत?
जीपीटी – ४ व्हीजनमध्ये छायाचित्रे, स्क्रीनशॉट आणि दस्तऐवजांसह दृश्य सामग्रीवर प्रक्रिया करणे यांसारख्या काही महत्त्वाच्या क्षमता समाविष्ट आहेत. या नव्या क्षमतांमुळे याला प्रतिमांमधील वस्तू ओळखणे आणि आलेख, तक्ते आणि दृश्यामधील इतर विदांचा अर्थ लावणे आणि विश्लेषण करणे यासारखी अनेक कार्ये करता येतात. जीपीटी – ४ व्हीजन प्रतिमांमध्ये समाविष्ट असलेल्या हस्तलिखित आणि मुद्रित मजकुराचादेखील अर्थ लावू शकते. कृत्रिम बुद्धिमत्तेच्या क्षेत्रामधील ही एक महत्त्वाची झेप आहे. कारण ती दृश्यात्मक समज आणि मजकूराचे विश्लेषण यांच्यातील अंतर अधिकाधिक कमी करते.

जीपीटी -४ व्हीजन वापरकर्त्यांना कशाप्रकारे मदत करू शकते?

‘द इंडियन एक्स्प्रेस’ला असे आढळून आले आहे की, जीपीटी – ४ व्हीजन हे संशोधक, वेब डेव्हलपर, विदा विश्लेषक आणि ‘कंटेट क्रिएटर्स’साठी एक सोयीचे साधन ठरू शकते. दृश्य क्षमतांचा वापर करुन प्रगत भाषा मॉडेलिंगच्या मदतीने जीपीटी – ४ व्हीजनचा वापर शैक्षणिक संशोधनात, विशेषत: ऐतिहासिक कागदपत्रे आणि हस्तलिखितांचा अर्थ लावण्यात होऊ शकतो.

अशाप्रकारची कामे वेळखाऊ असल्याने ती तज्ज्ञांच्या गटाद्वारे केली जातात. मात्र, जीपीटी – ४ हे काम सहजतेने करू शकते. विशेष म्हणजे ते वेळदेखील घेत नाही. अगदी काही सेकंदात ते निष्कर्ष आपल्यासमोर ठेवते. शिवाय त्यामधील अचूकता वाढवण्यासाठी वापरकर्ते त्याचे निष्कर्ष अनेक वेळा पडताळून घेऊ शकतात.

त्याचप्रमाणे जीपीटी – ४ व्हीजनचा वापर करून वेब डेव्हलपर आता संकेतस्थळांसाठी फक्त डिझाइनच्या दृश्य प्रतिमेवरून कोड लिहू शकतात. मग ते त्यासाठी एखादी कच्ची रेखाकृतीदेखील वापरु शकतात. हे मॉडेल कागदावरील डिझाइन वाचून संकेतस्थळासाठी कोडची निर्मिती करण्यासाठी देखील सक्षम आहे. विदेचा अर्थ लावणे हा कामाचा महत्त्वाचा भाग ठरतो. त्यामध्येही हे मॉडेल आश्चर्यकारक पद्धतीने कार्य करू शकते. कारण हे मॉडेल दृश्य आणि चित्रात्मक गोष्टींचाही अर्थ लावू शकते आणि त्याचे विश्लेषण करू शकते. थोडक्यात, जीपीटी – ४ व्हीजन आणि DALL-E 3 चे एकत्रित संयोजन होण्यामुळे ‘कंटेट क्रिएटर्स’ना समाजमाध्यमांसाठी आपली सर्जनशीलता अधिक वाढवण्यासाठी चांगलीच मदत होऊ शकते.

हेही वाचा : उमेदवारांनी संपत्ती म्हणून घड्याळही जाहीर करावं का? सर्वोच्च न्यायालयाचा सवाल; मालमत्ता प्रकरणी दिला महत्त्वपूर्ण निकाल

जीपीटी – ४ व्हीजनच्या मर्यादा काय आहेत?
ओपन एआयने हे मान्य केले आहे की, जीपीटी – ४ ने केलेली ही प्रगती नक्कीच अचूकता आणि विश्वासार्हतेच्या बाबतीत लक्षणीय झेप ठरते. मात्र, त्याने समोर ठेवलेले निष्कर्ष आणि विश्लेषण हे नेहमीच १०० टक्के अचूक आणि परिपूर्ण असतीलच असे नाही. कारण हे मॉडेलदेखील चुका करू शकते. त्यामुळेच त्याने प्रदान केलेले निष्कर्ष पुन्हा पडताळून पाहणे गरजेचे ठरते.

प्रतिमांमधील विशिष्ट व्यक्तींची ओळख टाळण्यासाठी मॉडेलला प्रशिक्षित केले गेले आहे. यालाच ओपन एआय डिझाइनद्वारे ‘रिफ्यूजल बिहेव्हिअर’ असे म्हणतात. याच्या असलेल्या मर्यादा आणि विसंगती ओळखून कंपनीने काही सूचनाही केल्या आहेत. त्यामध्ये अचूक वैज्ञानिक, वैद्यकीय आणि संवेदनशील विषयांच्या विश्लेषणासाठी याचा वापर करू नये, असे त्यांचे म्हणणे आहे.