कृत्रिम बुद्धीमत्ता अर्थात ‘एआय’ हा सध्या चर्चेत असलेला मुद्दा आहे. खासकरुन ओपन एआय कंपनीने (OpenAI) चॅट जीपीटी (ChatGPT) हे बाजारात आणल्यानंतर या साऱ्या मुद्यांवरची चर्चा अधिकच वाढली. अवघ्या काही महिन्यांपूर्वी वापरास उपलब्ध झालेले चॅट जीपीटी बघता बघता अनेकांच्या दैनंदिन वापराचा भागही झाले आहे. त्यामध्ये अगदी कमी कालावधीमध्ये प्रचंड गतीने विकास देखील होत आहे. सुरुवातीला आलेली चॅट जीपीटीची आवृत्ती ही निव्वळ मजकूरावर प्रक्रिया करू शकत होती. मात्र, आता त्यामध्ये नवनव्या सुविधा विकसित होत असून कृत्रिम बुद्धीमत्तेच्या जगतात अचाट करुन टाकणारे बदल होत आहेत. आता चॅट जीपीटीची अशीच एक नवीन आवृत्ती बाजारात आली आहे. DALL-E सोबत एकत्र आल्याने चॅट जीपीटी आता अगदी नेहमीच्या भाषेतून प्रॉम्प्ट (सूचना) दिल्यानंतर प्रतिमांची निर्मितीदेखील करू शकते.

वापरकर्त्याने सूचना दिल्यानंतर नव्याने एखादी प्रतिमा तयार करणे ही एक गोष्ट झालीच, मात्र त्यासोबतच एखादी जुनी प्रतिमाही त्याला पुरवली तर त्याचाही अर्थ उलगडण्याचे काम चॅट जीपीटीची नवी आवृत्ती करु शकते. उदाहरणार्थ, काहीवेळा एखाद्या जुन्या पुस्तकातील वा माहितीपत्रकावरील प्रतिमांचा अर्थ लावण्याची गरज भासते. तर तेही काम आता चॅट जीपीटीच्या नव्या आवृत्तीच्या वापरामुळे सोपे झाले आहे. कारण एकतर अशा एखाद्या प्रतिमेचे विश्लेषण करणे बरेचदा कठीण आणि वेळखाऊ काम असते. मात्र, आता ‘जीपीटी – ४ व्हीजन’मुळे ते काम अगदी सहज आणि लीलया पार पडू शकते.

horiba India Hydrogen vehicle
चाकणमध्ये हायड्रोजन वाहन इंजिन चाचणी सुविधा
sunlight vitamin d
सूर्यप्रकाश भरपूर प्रमाणात असूनही भारतीयांमध्ये ‘Vitamin D’ची कमतरता…
Toyota camry sedan launched in india comes with 9 airbags safety features know its price, performance and mileage
स्कोडाला टक्कर देण्यासाठी टोयोटाची ‘ही’ कार झाली लॉंच, ९ एअरबॅग्सच्या सेफ्टी फिचरसह देणार दमदार परफॉरमन्स, जाणून घ्या किंमत
Viral Video of Desi Jugaad
VIRAL VIDEO: जुगाड तर बघा! बॅनर लावून तयार केली सायकल, तीन मित्र बसले ऐटीत अन् निघाली स्वारी
Pimpri Chinchwad Anti Terrorism Branch exposed gang of fake police verification certificates
बनावट पोलीस पडताळणी प्रमाणपत्र देणार्‍या टोळीचा पर्दाफश
artificial intelligence
कुतूहल : चुकांची जबाबदारी निश्चित करण्याचे आव्हान!
quantum chip Willow solves in 5 minutes
Quantum Chip :सुपर कॉम्प्युटरलाही हजारो वर्षे लागतील; पण गूगलची ‘ही’ नवी चिप ५ मिनिटांत उत्तर देईल
PAN 2 0 is going Digital Will you still need a physical PAN card as ID proof and KYC document
PAN 2.0 आता डिजिटल होणार: अजूनही फिजिकल PAN कार्डची गरज भासेल का?

सप्टेंबर २०२३ मध्ये, ओपन एआयने दोन नव्या सुविधा समाविष्ट केल्या होत्या. एक म्हणजे यामध्ये वापरकर्त्याला प्रतिमेबद्दल प्रश्न विचारता येऊ लागले आणि दुसरे म्हणजे प्रश्न विचारण्यासाठी बोलण्याची सुविधा देखील देऊ केली आहे. गेल्या नोव्हेंबरमध्ये, ओपन एआय कंपनीने द्रष्टेपणा दाखवत API च्या प्रवेशासह ‘जीपीटी – ४ व्हीजन’ची घोषणा केली. आपण आता ‘जीपीटी – ४ व्हीजन’च्या तंत्रज्ञानावर आणि त्याच्या मर्यादांवर देखील एक नजर टाकणार आहोत.

हेही वाचा : ‘हेपिटायटिस’ या संसर्गजन्य आजारामुळे दररोज ३,५०० लोकांचा मृत्यू; हा आजार काय आहे? जाणून घ्या त्याची लक्षणे आणि उपाय

जीपीटी -४ व्हीजन नक्की आहे तरी काय?

‘जीपीटी – ४ व्हीजन’ यालाच ‘जीपीटी – ४ व्ही’ असेदेखील संबोधले जाते. यामध्ये वापरकर्त्यांना प्रतिमांचे विश्लेषण करता येते. ओपन एआयच्या संशोधनात्मक अहवालानुसार, “चॅट जीपीटीसारख्या मोठ्या भाषा मॉडेलमध्ये एखादी अतिरिक्त कृती करण्याची सुविधा मिळणे हे देखील एक मोठे पाऊल मानले जाते. त्यामुळे, आता त्यामध्ये प्रतिमा समाविष्ट करण्याची सुविधा प्राप्त झाल्याने हे नक्कीच एक मोठे यश आहे.”

जीपीटी – ४ व्हीजन हे चॅट बॉट मल्टीमॉडेल तयार करण्याच्या दिशेने टाकलेले एक मोठे पाऊल असल्याचे मानले जात आहे. यामध्ये प्रतिमा, मजकूर, ध्वनी यांचा वापर सहजपणे करता येऊ शकतो. यामध्ये वापरकर्त्यांना सूचना देण्यासाठी प्रतिमांचा वापर करता येऊ शकतो, तसेच त्याबद्दल प्रश्नही विचारता येऊ शकतात. या प्रक्रियेला ‘दृष्यात्मक प्रश्नांची उत्तरे देण्याची प्रक्रिया’ (Visual Question Answering – VQA) असे म्हणतात.

प्रतिमा, मजकूर आणि ध्वनी अशा तिन्ही गोष्टींवर करणार प्रक्रिया

जीपीटी – ४ व्हीजन हे एक ‘लार्ज मल्टीमोडल मॉडेल’ (LLM) आहे. हे मूलत: असे एक मॉडेल आहे, जे मजकूर आणि प्रतिमा किंवा मजकूर आणि ध्वनी यांसारख्या अनेक पद्धतींमध्ये माहिती घेण्यास आणि त्यावर प्रक्रिया करून प्रतिसाद निर्माण करण्याची क्षमता बाळगून आहे. मात्र, तंत्रज्ञानाचा विचार करता हा पहिला आणि एकमेव असा LMM नाही. CogVLM, LLaVA, Kosmos-2, इत्यादींसारखे इतरही अनेक LLM आहेत. LMM ला मल्टीमोडल लार्ज लँग्वेज मॉडेल (MLLMs) म्हणूनदेखील ओळखले जाते.

जीपीटी – ४ च्या प्रमुख क्षमता काय आहेत?
जीपीटी – ४ व्हीजनमध्ये छायाचित्रे, स्क्रीनशॉट आणि दस्तऐवजांसह दृश्य सामग्रीवर प्रक्रिया करणे यांसारख्या काही महत्त्वाच्या क्षमता समाविष्ट आहेत. या नव्या क्षमतांमुळे याला प्रतिमांमधील वस्तू ओळखणे आणि आलेख, तक्ते आणि दृश्यामधील इतर विदांचा अर्थ लावणे आणि विश्लेषण करणे यासारखी अनेक कार्ये करता येतात. जीपीटी – ४ व्हीजन प्रतिमांमध्ये समाविष्ट असलेल्या हस्तलिखित आणि मुद्रित मजकुराचादेखील अर्थ लावू शकते. कृत्रिम बुद्धिमत्तेच्या क्षेत्रामधील ही एक महत्त्वाची झेप आहे. कारण ती दृश्यात्मक समज आणि मजकूराचे विश्लेषण यांच्यातील अंतर अधिकाधिक कमी करते.

जीपीटी -४ व्हीजन वापरकर्त्यांना कशाप्रकारे मदत करू शकते?

‘द इंडियन एक्स्प्रेस’ला असे आढळून आले आहे की, जीपीटी – ४ व्हीजन हे संशोधक, वेब डेव्हलपर, विदा विश्लेषक आणि ‘कंटेट क्रिएटर्स’साठी एक सोयीचे साधन ठरू शकते. दृश्य क्षमतांचा वापर करुन प्रगत भाषा मॉडेलिंगच्या मदतीने जीपीटी – ४ व्हीजनचा वापर शैक्षणिक संशोधनात, विशेषत: ऐतिहासिक कागदपत्रे आणि हस्तलिखितांचा अर्थ लावण्यात होऊ शकतो.

अशाप्रकारची कामे वेळखाऊ असल्याने ती तज्ज्ञांच्या गटाद्वारे केली जातात. मात्र, जीपीटी – ४ हे काम सहजतेने करू शकते. विशेष म्हणजे ते वेळदेखील घेत नाही. अगदी काही सेकंदात ते निष्कर्ष आपल्यासमोर ठेवते. शिवाय त्यामधील अचूकता वाढवण्यासाठी वापरकर्ते त्याचे निष्कर्ष अनेक वेळा पडताळून घेऊ शकतात.

त्याचप्रमाणे जीपीटी – ४ व्हीजनचा वापर करून वेब डेव्हलपर आता संकेतस्थळांसाठी फक्त डिझाइनच्या दृश्य प्रतिमेवरून कोड लिहू शकतात. मग ते त्यासाठी एखादी कच्ची रेखाकृतीदेखील वापरु शकतात. हे मॉडेल कागदावरील डिझाइन वाचून संकेतस्थळासाठी कोडची निर्मिती करण्यासाठी देखील सक्षम आहे. विदेचा अर्थ लावणे हा कामाचा महत्त्वाचा भाग ठरतो. त्यामध्येही हे मॉडेल आश्चर्यकारक पद्धतीने कार्य करू शकते. कारण हे मॉडेल दृश्य आणि चित्रात्मक गोष्टींचाही अर्थ लावू शकते आणि त्याचे विश्लेषण करू शकते. थोडक्यात, जीपीटी – ४ व्हीजन आणि DALL-E 3 चे एकत्रित संयोजन होण्यामुळे ‘कंटेट क्रिएटर्स’ना समाजमाध्यमांसाठी आपली सर्जनशीलता अधिक वाढवण्यासाठी चांगलीच मदत होऊ शकते.

हेही वाचा : उमेदवारांनी संपत्ती म्हणून घड्याळही जाहीर करावं का? सर्वोच्च न्यायालयाचा सवाल; मालमत्ता प्रकरणी दिला महत्त्वपूर्ण निकाल

जीपीटी – ४ व्हीजनच्या मर्यादा काय आहेत?
ओपन एआयने हे मान्य केले आहे की, जीपीटी – ४ ने केलेली ही प्रगती नक्कीच अचूकता आणि विश्वासार्हतेच्या बाबतीत लक्षणीय झेप ठरते. मात्र, त्याने समोर ठेवलेले निष्कर्ष आणि विश्लेषण हे नेहमीच १०० टक्के अचूक आणि परिपूर्ण असतीलच असे नाही. कारण हे मॉडेलदेखील चुका करू शकते. त्यामुळेच त्याने प्रदान केलेले निष्कर्ष पुन्हा पडताळून पाहणे गरजेचे ठरते.

प्रतिमांमधील विशिष्ट व्यक्तींची ओळख टाळण्यासाठी मॉडेलला प्रशिक्षित केले गेले आहे. यालाच ओपन एआय डिझाइनद्वारे ‘रिफ्यूजल बिहेव्हिअर’ असे म्हणतात. याच्या असलेल्या मर्यादा आणि विसंगती ओळखून कंपनीने काही सूचनाही केल्या आहेत. त्यामध्ये अचूक वैज्ञानिक, वैद्यकीय आणि संवेदनशील विषयांच्या विश्लेषणासाठी याचा वापर करू नये, असे त्यांचे म्हणणे आहे.

Story img Loader