अतुल कहाते
डेटा सायन्स आणि एआय यांचा अत्यंत घनिष्ठ संबंध आहे. एआयचा डोलारा माहितीच्या साठ्यांवर आणि त्या साठ्यांमधल्या माहितीच्या योग्य पृथक्करणावर अवलंबून असल्यामुळे हे स्वाभाविकच आहे. एआय हे आपण डेटा सायन्सचं आणखी जास्त विस्तारित रूप आहे; असं म्हणू शकतो.
हजारपेक्षा जास्त प्रीमियम लेखांचा आस्वाद घ्या ई-पेपर अर्काइव्हचा पूर्ण अॅक्सेस कार्यक्रमांमध्ये निवडक सदस्यांना सहभागी होण्याची संधी ई-पेपर डाउनलोड करण्याची सुविधा
डेटा सायन्टिस्ट कसं व्हायचं या प्रश्नाचं उत्तर एका वाक्यात देणं अशक्यप्राय आहे. अर्थात काही ठिकाणी ‘पायथन भाषा शिका आणि डेटा सायन्टिस्ट व्हा’ अशा प्रकारच्या आकर्षक जाहिराती बघायला मिळतात; पण हे खरं म्हणजे डेटा सायन्स या शाखेचं अतिसुलभीकरण झालं. फक्त पायथन भाषा शिकून डेटा सायन्टिस्ट बनता येणं हे फक्त गाडी चालू-बंद करता येणं किंवा सरळ रेषेत गाडी चालवता येणं याबरोबर आपल्याला गाडी चालवता येते असं मानण्यायोग्य समजावं. डेटा सायन्स या शाखेचे अनेक पैलू आहेत. त्यामधल्या अगदी सगळ्या पैलूंचा सखोल अभ्यास केला नाही, तरी निदान काही महत्त्वाच्या गोष्टींची चांगली माहिती नक्कीच मिळवायला हवी.
मुळात डेटा सायन्सची शाखा प्रामुख्यानं संख्याशास्त्र (स्टॅटिस्टिक्स) आणि गणितामधला काही विशिष्ट भाग (लीनियर अल्जेब्रा) या मूलतत्त्वांवर आधारलेली आहे. साहजिकच याविषयीची जाण असल्याशिवाय डेटा सायन्स या शाखेचं आकलन होणं अशक्यप्राय आहे. त्यातही संख्याशास्त्राचा वाटा तर जरा जास्तच असतो, असं म्हटलं पाहिजे. या मूलतत्त्वांना संगणकीय भाषेत उत्तमरीत्या बसवण्याचं आणि किचकट गोष्टी एकदम सोप्या करून आपल्यासमोर सादर करण्याचं काम पायथन ही भाषा करते. साहजिकच डेटा सायन्स आणि पायथन यांचं अगदी अतूट नातं झालेलं आहे. दुसरी ‘आर’ नावाची संगणकीय भाषासुद्धा यासाठी वापरतात; पण पायथनच्या तुलनेत आरचा बोलबाला तसा कमी आहे आणि अलीकडच्या काळात पायथनच्या झपाट्यासमोर आर काहीशी मागे पडल्याचं प्रकर्षानं दिसतं. ताज्या आकडेवारीनुसार जगभरात पायथन भाषा वापरणारे सुमारे १.५७ कोटी सॉफ्टवेअर प्रोग्रामर्स आहेत, तर आर भाषा वापरणारे सुमारे १४ लाख प्रोग्रामर्स आहेत! पण म्हणून पायथन भाषा शिकल्यावर डेटा सायन्स आलं; असं नाही. आधी उल्लेख केल्याप्रमाणे संख्याशास्त्रामधल्या अनेक मूलभूत संकल्पना समजून घेणं आणि शिवाय त्या पायथनमध्ये कशा वापरायच्या याची जाण येणं, हे यासाठी गरजेचं असतं.
डेटा सायन्समधला आणखी एक महत्त्वाचा मुद्दा असतो तो म्हणजे सगळ्या माहितीमधले किचकट तपशील दाखवून सर्वसामान्य माणसाला कंटाळून जाईल असं कधीच करायचं नाही. तसंच माहितीच्या अफाट पसाऱ्याचा मारासुद्धा सर्वसामान्य माणसावर होता कामा नये, याचं भान डेटा सायंटिस्टला असलं पाहिजे. यासाठी माहिती सर्वसामान्य माणसापासून कंपनीच्या प्रमुख अधिकाऱ्यापर्यंत सगळ्यांना सहजपणे कशी समजेल, आपलीशी वाटेल, तिच्यातून त्यांना सहजपणे कसे निष्कर्ष काढता येतील या गोष्टी डेटा सायंटिस्टनं आत्मसात केल्या पाहिजेत. याला ‘डेटा व्हिज्युअलायझेशन’ असं म्हणतात. आपण सोप्या भाषेत त्याला ‘माहितीचं आकृत्यांच्या स्वरूपातलं सुयोग्य सादरीकरण’ असं म्हणू. म्हणजेच माहितीचा मारा न करता सोप्या आकृत्यांमध्ये, रकान्यांमध्ये, दृश्य स्वरूपात ती लोकांसमोर आली पाहिजे. यामुळे लोकांना माहिती आपल्या अंगावर आल्यासारखं वाटत नाही; पण ती त्यांच्यापर्यंत पोहोचतेसुद्धा. हे काम आपण पायथन वापरूनसुद्धा करू शकतो किंवा त्यासाठी टॅब्ल्यू तसंच मायक्रोसॉफ्ट कंपनीचं पॉवर बीआय अशी सॉफ्टवेअर उपलब्ध आहेत.
डेटा सायन्स आणि एआय यांचा अत्यंत घनिष्ठ संबंध आहे. एआयचा डोलारा माहितीच्या साठ्यांवर आणि त्या साठ्यांमधल्या माहितीच्या योग्य पृथक्करणावर अवलंबून असल्यामुळे हे स्वाभाविकच आहे. एआय हे आपण डेटा सायन्सचं आणखी जास्त विस्तारित रूप आहे; असं म्हणू शकतो. अनेक मोठमोठ्या कंपन्यांमध्ये डेटा सायंटिस्टची पदं असतात आणि त्यासाठी या क्षेत्रामध्ये काम करू शकणाऱ्या लोकांची नेहमी गरजसुद्धा भासते. ज्यांना डेटा सायंटिस्ट बनण्यासाठी वर उल्लेख केलेल्या तंत्रज्ञानांपैकी कुठलंही तंत्रज्ञान अवगत नसेल त्यांनी अगदी मायक्रोसॉफ्ट एक्सेलपासून सुरुवात करायलाही हरकत नाही. एक्सेल हे सॉफ्टवेअर मायक्रोसॉफ्ट ऑफिसचा भाग असल्यामुळे आपल्यापैकी बहुतेक जणांच्या संगणकांमध्ये असतं. त्यात माहितीचं निरनिराळ्या मार्गांनी पृथक्करण करण्यापासून ते चांगल्यापैकी दृश्य स्वरूपात माहितीचं सादरीकरण करण्यापर्यंतच्या असंख्य सोयी उपलब्ध आहेत. साहजिकच एक्सेलमधले यासाठीचे मार्ग वेगळे असले तरी माहितीकडे बघण्याचा परिपक्व दृष्टिकोन विकसित होण्यासाठी एक्सेलचा सुरुवातीला वापर करण्यामध्ये काहीच गैर नाही.
मात्र ज्यांना खरोखरच डेटा सायन्सच्या जगात प्रवेश करायचा असेल आणि तिथे चांगल्या प्रकारच्या रोजगाराची संधी हवी असेल त्यांनी मात्र या लेखात उल्लेख केलेल्या गोष्टींमध्ये प्रावीण्य मिळवण्यासाठी प्रयत्न करायला हवेत. तसंच नुसतंच ही कौशल्यं आत्मसात करून उपयोग नसतो; तर त्यांचा वापर करून विविध प्रकारचे प्रत्यक्ष जगातले प्रश्न सोडवण्यासाठी त्यांनी धडपड केली पाहिजे. त्याविषयी आपण नंतर विस्तारानं बोलणारच आहोत.
akahate@gmail. com
डेटा सायन्टिस्ट कसं व्हायचं या प्रश्नाचं उत्तर एका वाक्यात देणं अशक्यप्राय आहे. अर्थात काही ठिकाणी ‘पायथन भाषा शिका आणि डेटा सायन्टिस्ट व्हा’ अशा प्रकारच्या आकर्षक जाहिराती बघायला मिळतात; पण हे खरं म्हणजे डेटा सायन्स या शाखेचं अतिसुलभीकरण झालं. फक्त पायथन भाषा शिकून डेटा सायन्टिस्ट बनता येणं हे फक्त गाडी चालू-बंद करता येणं किंवा सरळ रेषेत गाडी चालवता येणं याबरोबर आपल्याला गाडी चालवता येते असं मानण्यायोग्य समजावं. डेटा सायन्स या शाखेचे अनेक पैलू आहेत. त्यामधल्या अगदी सगळ्या पैलूंचा सखोल अभ्यास केला नाही, तरी निदान काही महत्त्वाच्या गोष्टींची चांगली माहिती नक्कीच मिळवायला हवी.
मुळात डेटा सायन्सची शाखा प्रामुख्यानं संख्याशास्त्र (स्टॅटिस्टिक्स) आणि गणितामधला काही विशिष्ट भाग (लीनियर अल्जेब्रा) या मूलतत्त्वांवर आधारलेली आहे. साहजिकच याविषयीची जाण असल्याशिवाय डेटा सायन्स या शाखेचं आकलन होणं अशक्यप्राय आहे. त्यातही संख्याशास्त्राचा वाटा तर जरा जास्तच असतो, असं म्हटलं पाहिजे. या मूलतत्त्वांना संगणकीय भाषेत उत्तमरीत्या बसवण्याचं आणि किचकट गोष्टी एकदम सोप्या करून आपल्यासमोर सादर करण्याचं काम पायथन ही भाषा करते. साहजिकच डेटा सायन्स आणि पायथन यांचं अगदी अतूट नातं झालेलं आहे. दुसरी ‘आर’ नावाची संगणकीय भाषासुद्धा यासाठी वापरतात; पण पायथनच्या तुलनेत आरचा बोलबाला तसा कमी आहे आणि अलीकडच्या काळात पायथनच्या झपाट्यासमोर आर काहीशी मागे पडल्याचं प्रकर्षानं दिसतं. ताज्या आकडेवारीनुसार जगभरात पायथन भाषा वापरणारे सुमारे १.५७ कोटी सॉफ्टवेअर प्रोग्रामर्स आहेत, तर आर भाषा वापरणारे सुमारे १४ लाख प्रोग्रामर्स आहेत! पण म्हणून पायथन भाषा शिकल्यावर डेटा सायन्स आलं; असं नाही. आधी उल्लेख केल्याप्रमाणे संख्याशास्त्रामधल्या अनेक मूलभूत संकल्पना समजून घेणं आणि शिवाय त्या पायथनमध्ये कशा वापरायच्या याची जाण येणं, हे यासाठी गरजेचं असतं.
डेटा सायन्समधला आणखी एक महत्त्वाचा मुद्दा असतो तो म्हणजे सगळ्या माहितीमधले किचकट तपशील दाखवून सर्वसामान्य माणसाला कंटाळून जाईल असं कधीच करायचं नाही. तसंच माहितीच्या अफाट पसाऱ्याचा मारासुद्धा सर्वसामान्य माणसावर होता कामा नये, याचं भान डेटा सायंटिस्टला असलं पाहिजे. यासाठी माहिती सर्वसामान्य माणसापासून कंपनीच्या प्रमुख अधिकाऱ्यापर्यंत सगळ्यांना सहजपणे कशी समजेल, आपलीशी वाटेल, तिच्यातून त्यांना सहजपणे कसे निष्कर्ष काढता येतील या गोष्टी डेटा सायंटिस्टनं आत्मसात केल्या पाहिजेत. याला ‘डेटा व्हिज्युअलायझेशन’ असं म्हणतात. आपण सोप्या भाषेत त्याला ‘माहितीचं आकृत्यांच्या स्वरूपातलं सुयोग्य सादरीकरण’ असं म्हणू. म्हणजेच माहितीचा मारा न करता सोप्या आकृत्यांमध्ये, रकान्यांमध्ये, दृश्य स्वरूपात ती लोकांसमोर आली पाहिजे. यामुळे लोकांना माहिती आपल्या अंगावर आल्यासारखं वाटत नाही; पण ती त्यांच्यापर्यंत पोहोचतेसुद्धा. हे काम आपण पायथन वापरूनसुद्धा करू शकतो किंवा त्यासाठी टॅब्ल्यू तसंच मायक्रोसॉफ्ट कंपनीचं पॉवर बीआय अशी सॉफ्टवेअर उपलब्ध आहेत.
डेटा सायन्स आणि एआय यांचा अत्यंत घनिष्ठ संबंध आहे. एआयचा डोलारा माहितीच्या साठ्यांवर आणि त्या साठ्यांमधल्या माहितीच्या योग्य पृथक्करणावर अवलंबून असल्यामुळे हे स्वाभाविकच आहे. एआय हे आपण डेटा सायन्सचं आणखी जास्त विस्तारित रूप आहे; असं म्हणू शकतो. अनेक मोठमोठ्या कंपन्यांमध्ये डेटा सायंटिस्टची पदं असतात आणि त्यासाठी या क्षेत्रामध्ये काम करू शकणाऱ्या लोकांची नेहमी गरजसुद्धा भासते. ज्यांना डेटा सायंटिस्ट बनण्यासाठी वर उल्लेख केलेल्या तंत्रज्ञानांपैकी कुठलंही तंत्रज्ञान अवगत नसेल त्यांनी अगदी मायक्रोसॉफ्ट एक्सेलपासून सुरुवात करायलाही हरकत नाही. एक्सेल हे सॉफ्टवेअर मायक्रोसॉफ्ट ऑफिसचा भाग असल्यामुळे आपल्यापैकी बहुतेक जणांच्या संगणकांमध्ये असतं. त्यात माहितीचं निरनिराळ्या मार्गांनी पृथक्करण करण्यापासून ते चांगल्यापैकी दृश्य स्वरूपात माहितीचं सादरीकरण करण्यापर्यंतच्या असंख्य सोयी उपलब्ध आहेत. साहजिकच एक्सेलमधले यासाठीचे मार्ग वेगळे असले तरी माहितीकडे बघण्याचा परिपक्व दृष्टिकोन विकसित होण्यासाठी एक्सेलचा सुरुवातीला वापर करण्यामध्ये काहीच गैर नाही.
मात्र ज्यांना खरोखरच डेटा सायन्सच्या जगात प्रवेश करायचा असेल आणि तिथे चांगल्या प्रकारच्या रोजगाराची संधी हवी असेल त्यांनी मात्र या लेखात उल्लेख केलेल्या गोष्टींमध्ये प्रावीण्य मिळवण्यासाठी प्रयत्न करायला हवेत. तसंच नुसतंच ही कौशल्यं आत्मसात करून उपयोग नसतो; तर त्यांचा वापर करून विविध प्रकारचे प्रत्यक्ष जगातले प्रश्न सोडवण्यासाठी त्यांनी धडपड केली पाहिजे. त्याविषयी आपण नंतर विस्तारानं बोलणारच आहोत.
akahate@gmail. com