संहिता जोशी

या बातमीसह सर्व प्रीमियम कंटेंट वाचण्यासाठी साइन-इन करा
Skip
या बातमीसह सर्व प्रीमियम कंटेंट वाचण्यासाठी साइन-इन करा

नामांकित तंत्रकंपन्या जी भाषिक प्रारूपं (मॉडेलं) बनवतात, त्यांसाठी वापरलेली विदा (डेटा) म्हणजे भाषा. ती भाषा समाजातले भेदभाव गिरवणाऱ्या असमानतेकडे किंचित झुकलेली आहे. वंशवादी, लिंगभेदी, धडधाकट-वादी, एकारलेलं लेखन वापरून बनवलेली प्रारूपं तशाच प्रकारचे घातक भेदभाव पसरवण्यात आणि (समाजाची) हानी करण्यात मदत करतात.. हे मत आहे ‘कृत्रिम प्रज्ञेतली नैतिकता’ या विषयावर संशोधन करणाऱ्या तिनमित गेब्रू आणि एमिली बेंडर यांचं. याच संशोधनातील काही महत्त्वाच्या नोंदींविषयीचा लेख..

हीवाक्यं कशी वाटतात, मनात विचार करा.. ‘‘कोपऱ्यातल्या टेबलावर काही संशोधिका, अभियंते, पुरुष लेखक आणि पुरुष डॉक्टर बसले होते. त्या सगळ्यांनी मिळून एक सायफाय कथा लिहावी असा विचार होता. सगळेच आपल्या कामात तरबेज होते. शिवाय एकत्र काम करण्याची त्या सगळ्यांचीच खूप इच्छा होती.’’

एरवी पुरुष लेखक आणि पुरुष डॉक्टर असं वाचायची कुणालाही सवय नाही. इंग्लिश भाषाही याला अपवाद नाही. (अशा भाषा वापराला अत्यंत मोजके अपवाद आहेत.) इंग्लिशमध्ये कितीदा स्त्री-पुरुषांच्या गटाचा उल्लेख ‘यू गाईज’ असा होतो. थोडं निराळं उदाहरण द्यायचं तर मराठीत आपण ‘समलैंगिक’ असा एकच शब्द वापरतो, इंग्लिशमध्ये ‘लेस्बियन’ आणि ‘गे’ असे दोन शब्द आहेत. सर्वसाधारणपणे समलैंगिकांना इतरांइतकेच समान मानव न मानणारी प्रकाशनं ‘होमोसेक्शुअल’ असा शब्द वापरतात. भारतीय इंग्लिशमध्ये सर्रास ‘वुमन पायलट’, ‘वुमन सायंटिस्ट’ किंवा तत्सम शब्दप्रयोग सापडतील. अगदी उदारमतवादी माध्यमांमध्येही असं लिहून हे व्यवसाय पुरुषांना आंदण दिले जात आहेत आणि त्यात काही गैर आहे, असं खास कुणाला वाटत नाही.

दुसऱ्या बाजूनं, गूगल, फेसबुकवरची भयभीषण भाषांतरं तुम्ही बरेचदा बघितली असतील. हल्लीच बातमी होती की, भाजपच्या खासदार रक्षा खडसे यांचा मतदारसंघ homosexual आहे; आणि असं हे भाजपच्याच संस्थळावर लिहिलं होतं. हे भीषण विदाविज्ञानी भाषांतर होतं ‘रावेर’ या मतदारसंघाचं. मुळात रावेर हे गाव आणि मतदारसंघाचं नाव असल्यामुळे त्या शब्दाचं भाषांतर रावेर असंच होईल, ही पहिली भाषिक चूक. शिवाय रावेर म्हणजे होमोसेक्शुअल नाही, ही दुसरी.

माणसं भाषांतरं करतात, त्यातही चांगल्या भाषांतरांमध्ये थोडेथोडे फरक असतात. माणसं भाषांतरं करतात तीही कधी विनोदी असल्याचं दिसतं. बरेचदा मराठीतल्या जाहिराती अशा असतात. पण ते विनोद कृत्रिम प्रज्ञेनं केलेल्या विनोदांपेक्षा निराळे ओळखता येतात. माणसांनी केलेल्या भीषण विनोदी भाषांतरांमागची कारणं जरा विचार केला तर सापडतात, पण कृत्रिम प्रज्ञेनं केलेल्या भाषांतरी विनोदांची कारणं सहज समजत नाहीत. तिनमित गेब्रू, एमिली बेंडर, प्रभृतींचा हाच मुद्दा आहे.

तिनमित गेब्रू नोव्हेंबर २०२०पर्यंत ‘गूगल’मध्ये एथिकल ए. आय. (कृत्रिम प्रज्ञेतली नैतिकता) या विषयावर संशोधन करत होती. तिच्या म्हणण्यानुसार, गूगलनं तिला डिसेंबरमध्ये काढून टाकलं. गूगलचं म्हणणं, तिनंच राजीनामा दिला. त्यामुळे तिनं तिच्या समूहासोबत केलेलं हे संशोधन विदाविज्ञानाच्या (डेटा सायन्स) समूहात आणखी जास्त प्रसिद्ध झालं. तिनमित ही इथियोपियाई, काळी स्त्री आहे आणि तंत्रज्ञानात काम करणाऱ्या काळ्या वंशाच्या लोकांसाठी ‘ब्लॅक ए. आय.’ नावाची संस्था चालवते. या लेखात ज्या संशोधन-पेपरचा संदर्भ वापरून लिहिलं आहे, तो पेपर लिहिणाऱ्यांत एमिली बेंडर आणि तिनमित गेब्रू दोघी मुख्य आहेत. त्याचं शीर्षक आहे- ‘यादृच्छिक पोपटपंचीचे धोके- भाषेची प्रारूपं अति मोठी असू शकतात का?’ (‘On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?’) हे संशोधन म्हणण्यापेक्षा पूर्वप्रकाशित संशोधनाचा आढावा आहे. संशोधकांनी भाषिक प्रारूपांच्या वेगवेगळ्या प्रकारच्या उणिवांबद्दल केलेलं संशोधन वाचून, पचवून, एकत्र करताना काढलेले निष्कर्ष या पेपरात आहेत.

भाषेच्या प्रारूपांबद्दल (लँग्वेज मॉडेल्स) त्या लिहितात, भाषिक प्रारूपांसाठी वापरलेली विदा (डेटा, या संदर्भात लेखन) अपमानास्पद भाषेकडे किंचित झुकलेली असते. वंशवादी, लिंगभेदी, धडधाकट-वादी, एकारलेलं लेखन वापरून बनवलेली प्रारूपं तशाच प्रकारचे घातक भेदभाव पसरवण्यात आणि (समाजाची) हानी करण्यात मदत करतात.

आर्थिक चटका आणि पर्यावरणाचा बळी गूगलच्या एका भाषिक प्रारूपाचं नाव आहे बर्ट (BERT). हे प्रारूप एकदा तयार करताना जी ऊर्जा लागते त्यातून साधारण ६५० किलो कार्बन डायॉक्साईड तयार होतो. तुलनेसाठी दिल्ली ते चेन्नई विमानप्रवास जाऊन-येऊन दोनदा केला तर साधारण तेवढा कार्बन डायॉक्साईड तयार होईल.

सध्याची मोठमोठी भाषिक प्रारूपं चालवण्यासाठी एका वेळेस ‘बर्ट’च्या पाच-सहाशे पटीपर्यंत जास्त कार्बन डायॉक्साईड तयार होतो. बर्ट एकदा तयार करण्यासाठी गूगलला अंदाजे खर्च येतो ४ ते १२ हजार डॉलर. रोज एवढा खर्च होत नाही; एकदा तयार केलेलं प्रारूप किमान काही महिने चालवलं जात असावं (असा माझा तर्क); पण ते प्रारूप एकदाच तयार केलं जात नाही; त्यात छोटय़ा-मोठय़ा त्रुटी, उणिवा सापडतात; मग ते सर्वागसुंदर वगैरे बनवण्याचे कष्ट घेतले जातात. बऱ्यापैकी काळ आणि वारंवार वापरण्यासाठी असल्यामुळे ते घासलंपुसलं जातं; त्यासाठी प्रत्येक वेळेस एवढा कार्बन आणि पैसा खर्च होतो. गेब्रू-बेंडर पेपरमध्ये भारतातले ओले-सुके दुष्काळ, २०२०च्या सुरुवातीला ऑस्ट्रेलियात लागलेल्या आगी इत्यादी उदाहरणं आवर्जून देतात. त्यांचं म्हणणं आहे की, एवढा खर्च करणं फक्त मोठमोठय़ा उद्योजकांनाच शक्य आहे. त्यांना बाजारातून फार स्पर्धा येणं कठीण आहे. त्यामुळे अमेरिकी मुक्त बाजारपेठेची तत्त्वं कशी चिरडली जातात, याबद्दल स्वतंत्र लेख लिहिता येईल. मात्र ते या लेखाच्या कक्षेबाहेर आहे. भाषिक प्रारूपांवर आधारित व्यवसाय चालवणं सगळ्यांना शक्य होत नाही. या विषयात मोठय़ा कंपन्यांची एकाधिकारशाही तयार होते. (हा प्रकार एरवी अमेरिकेतल्या शेरमन अँटीट्रस्ट कायद्याच्या कक्षेत येऊ शकतो; भारतात २००२ सालचा कॉम्पिटिशन कायदा आहे.)

शिवाय, एवढय़ा ऊर्जेच्या वापरामुळे पर्यावरणावर दुष्परिणाम होतात आणि ते भोगावे लागतात ते गरीब देशांतल्या लोकांना आणि श्रीमंत देशांतल्या गरिबांनाही! साधीच कल्पना करा, ज्यांना घरी चोवीस तास पंखे चालवणं परवडत नाही, त्यांनी भर उन्हाळ्यात कसं राहायचं? त्यातून ज्या गरिबांना आणि गरीब देशांना पर्यावरणातल्या बदलाचे मोठे झटके बसतात, त्यांना या संशोधनाचा काहीच फायदा नसतो. अ‍ॅमेझन-अलेक्सा, गूगल-होम, आणि अ‍ॅपल-सिरी वापरणारे लोक गरीब नसतात. या सुखवस्तू-श्रीमंत लोकांसाठी भरडले जातात गरीब. यासाठी त्या शब्द वापरतात- पर्यावरणसंबंधित वंशवाद.

महाकाय विदा आणि अथांग प्रारूपं- ‘बिग डेटा’ म्हटलं की लोक फार खूश होतात. खूप विदा वापरली की आपली प्रारूपं अत्यंत अचूक होणार याची लोकांना खात्री असते. ते काही अंशी खरंच आहे, पण ते फसवंसुद्धा आहे. साधं उदाहरण पाहा, मराठीतले सगळे शब्द घेतले तर जेमतेम काही टक्के, समजा २% शब्द अपशब्द असतील. आपल्या प्रारूपानं सांगितलं की एकही शब्द अपशब्द नाही, तरीही आपलं प्रारूप ९८% अचूक असेल. हे प्रारूप वापरून अश्लाघ्य भाषा वापरणारे लोक शोधायचे असतील तर त्या अचूकतेचा काहीही उपयोग नाही.

मोठय़ा भाषिक प्रारूपांमध्ये वापरलेली भाषा वरच्या वर्गातल्या पुरुषांची असते. इंग्लिशच्या संदर्भात त्यात गोरी-वंशवादी, वयवादी (वयस्करविरोधी) आणि स्त्रीद्वेष्टी भाषा मोठय़ा प्रमाणात सापडते. कारण ही विदा ज्या विकिपीडिया, रेडिट, ट्विटर वगैरे संस्थळांवरून गोळा केलेली आहे तिथे असा विचार करणाऱ्या लोकांचा भरणा मोठय़ा प्रमाणावर आहे. अमेरिकेतल्या रेडिट वापरकर्त्यांमधले ६७% लोक पुरुष आहेत आणि ६४% लोक १८ ते २९ या वयोगटातले आहेत. विकिपीडियावर स्त्रियांचा सहभाग १५% सुद्धा नाही. त्यामुळे ही भाषा मोठय़ा प्रमाणावर पुर्षट, स्त्रीद्वेष्टी असते. शिवाय ही संस्थळं सगळ्यांसाठी उघडी असली तरी त्यात व्यवस्थेनुरूप भेदभाव राहतात. सुखवस्तू पुरुष या संस्थळांवर मोठय़ा प्रमाणावर असतात; बायका अनेकदा त्यांच्या पारंपरिक चूल-मुलांत अडकलेल्या राहतात; आणि परिघावरच्या उपेक्षितांना अशा संस्थळांवर लिहिण्यासाठी संसाधनं उपलब्ध नसतात.

कौटुंबिक हिंसेचे बळी, देहविक्रीच्या व्यवसायातले आणि लिंगतरल लोकांना ट्विटरवर खूपच शाब्दिक हिंसेला सामोरं जावं लागतं. ट्विटरबद्दल संशोधकांनी अशाही नोंदी केल्या आहेत की लोकांना जिवे मारण्याच्या धमक्या आल्या म्हणून ट्विटरकडे तक्रार केली, तर तक्रार करणाऱ्या लोकांची खाती ट्विटरनं गोठवली आणि धमक्या देणाऱ्या लोकांची खाती टिकून राहिली. हे लेखन सामाजिक संभाषितं म्हणून वापरलं जातं. ती विदा बनते तेव्हा ती फक्त समाजाचं वर्णन करण्यापुरती मर्यादित राहत नाही, तर ती वापरून भाषेची प्रारूपं बनतात, ती वापरली जातात लोकांचं आयुष्य हाकण्यासाठी. म्हणजे फेसबुक किंवा ट्विटरवरचं कुठलं लेखन हिंसक आहे हे ठरवण्यासाठीही ही प्रारूपं वापरली जातील, ज्यात हिंसक शब्दप्रयोग सर्वसामान्य असल्याचं प्रारूपाला मुळातच शिकवलं जाईल.

म्हणजे मर्यादित (वाचा सत्ताधारी) सामाजिक-आर्थिक गटातल्या लोकांना आणखी विदा वाढवता येईल, पर्यायानं आधीच उपेक्षित आणि अन्यायग्रस्त लोकांवरचा अन्याय वाढत राहील. आंतरजालावर (इंटरनेट) परिघावरचे लोक आणखी परिघाबाहेर फेकले जाणार. हे लोक आपापल्या गटांसाठी निराळी संस्थळं, समाजमाध्यमं वापरू शकतात. ब्लॉग वापरण्याचं प्रमाण वयस्कर लोकांत खूप जास्त आहे. पण ही विदा भाषिक प्रारूपांसाठी सध्या वापरलीच जात नाही, त्यामुळे त्यांच्या जालीय सहभागाचं प्रतिबिंब भाषेत पडत नाही.

शिवाय, ही विदा प्रारूपाला खिलवण्याआधी वेगवेगळ्या गाळण्याचाळण्यांतून जाते. कारण लिहित्या भाषेत बरेच शब्द असतात, ज्यांचा प्रारूप बनवताना उपद्रवच होतो. उदाहरणार्थ, एखादा शब्द आणि त्याचं अनेकवचन दोन्ही प्रारूपं बनवताना एकसमानच मानतात; आणि-किंवा- पण- अशी अव्ययं भाषेच्या प्रारूपांसाठी निरुपयोगी म्हणून काढून टाकली जातात. अशा चाळण्या बनवण्यासाठी मूळ साचा वापरला जातो तोही याच विकिपीडिया-रेडिट-ट्विटरच्या विदेवर आधारित. त्यातून वंशवादी, धडधडीत हिंस्र शब्द गाळले जातात. पण समलैंगिक आणि एकंदरच LGBTQ + समूहांत सामान्यपणे वापरले जाणारे शब्दही त्यातून वगळले जातात आणि या लोकांवर होणारे अन्याय आणखी गडद होतात.

स्थिर विदा आणि बदलता सामाजिक दृष्टिकोन

जून २०२०मध्ये अमेरिकेत जॉर्ज फ्लॉईडला पोलिसांनी मारल्यानंतर जगभरातच ‘ब्लॅक लाईव्ह मॅटर’ची चर्चा सुरू झाली. अमेरिकेत काही वर्षआधी ही चळवळ सुरू झाली आणि तेव्हापासून विकिपीडियावर पोलिसांच्या काळ्या लोकांवरच्या अत्याचाराची माहिती देणारी पानं वाढली. त्याही आधी, २०१०च्या दशकात घडलेल्या अशा घटनांबद्दलही विकिपीडियावर  माहिती सापडते. ही वाढीव विदा आता मिळाली आहे. पण ज्या प्रकारच्या अन्यायांबद्दल विकिपीडियावर फार माहिती नाही, उदाहरणार्थ- भारतात दलितांवर सातत्यानं होणारे अत्याचार,  त्यांची नोंद भाषिक प्रारूपांमध्ये घेतली जात नाही. सत्ताधारी समाजांना त्यातून त्यांची सत्ता बळकट करता येते आणि अल्पसंख्य-पीडित समाज आणखी दुबळा होऊन हिंसेला बळी पडतो.

भेदभावाचा खुंटा बळकट करणं

आधीच्या उदाहरणांहून निराळा भेदभावही समाजात असतो, तो भाषेतून दिसतो. ठरावीक साच्यांतल्या बनावट बातम्या, सबरेडिट्स वगैरेंचा भरणा प्रारूपांमध्ये होतो. गेब्रू-बेंडर अमेरिकेतली उदाहरणं देतात. अपंग लोकांचा संबंध खुल्या बंदुकवापरांतून घडणाऱ्या हिंसा, बेघर असणं आणि ड्रग्जची व्यसनाधीतना यांच्याशी भाषिक प्रारूपं लावतात. याचा दुष्परिणाम अपंग लोकांना भोगावा लागू शकतो; जिथे ही प्रारूपं वापरून नोकऱ्या आणि इतर सोयीसुविधा मिळवण्याचे अर्ज कृत्रिम प्रज्ञा वापरून वाचले जातात.

गेल्या काही वर्षांत ‘मीटू’ आणि कामाच्या ठिकाणी स्त्रियांवर होणारे लैंगिक अत्याचार, अन्याय यांबद्दल चर्चा सुरू झाली आहे. वीस वर्षांपूर्वी ज्या गोष्टी ‘चालायचंच’ म्हणून सोडून दिल्या जात होत्या, त्याबद्दल आता जागरूकता निर्माण झालेली आहे. या संदर्भात माणसांची मतं बघितली तर स्त्रिया आणि पुरुषांच्या मतांमध्ये खूपच फरक दिसून येतो. मग भाषा योग्यायोग्य ठरवण्यासाठी कुठली विदा वापरायची, असे नवे प्रश्न निर्माण होत आहेत.

लेखाच्या अगदी सुरुवातीलाच मी उदाहरण दिलं आहे ते लिंगाधारित भाषिक भेदभावाचं. सध्या समाजात बहुतेकशा उच्चस्थानांवर पुरुष दिसतात. म्हणून ती क्षेत्रं फक्त पुरुषांना आंदण दिल्यासारखी भाषा आपण वापरतो. यातून तरुण पिढीला आपण असाही संदेश देतो की, बायका उच्चस्थानांवर असत नाहीत; आणि ज्या बायका असतात त्या एक तर अपवाद, निराळ्या असतात किंवा त्या काही चापलूसी करून तिथे पोहोचलेल्या आहेत. म्हणजे सर्वसामान्य मुलींनी कर्तबगारीच्या जोरावर उच्चस्थानी पोहोचण्याची स्वप्नं बघू नयेत. इंग्लिश भाषेच्या अनेक प्रारूपांवर अशा प्रकारची टीका वेळोवेळी केली जाते. उदाहरणार्थ- पुरुष-डॉक्टर अशी जोडी असेल तर सोबत स्त्री-नर्स अशी जोडी लावली जाते. हा भेदभाव टाळण्यासाठी काही संशोधकांनी अल्गोरिदम बनवली आणि त्यांची चिकित्सा करणाऱ्यांनी कावळ्याला मोराचा पिसारा लावणं असं केलं आहे. थोडक्यात, विदाच दूषित असेल तर प्रारूपं काही निराळं करू शकत नाहीत. कचऱ्यातून कचराच निघतो.

छाननी, दस्तावेजीकरण आणि जबाबदारी

या पेपरात त्यांनी एक उदाहरण दिलं आहे- जगातलं सौंदर्य, कुरूपपणा आणि दुष्टपणा एकत्र करून कृत्रिम प्रज्ञेला खायला घालून, त्या प्रारूपातून फक्त सौंदर्यच बाहेर पडेल असं मानणं हा कल्पनाविलास ठरेल.

हे प्रश्न सोडवण्यासाठी त्या काही उपायही सुचवतात. आपलं प्रारूप किती अचूक आहे, जगात किती पुढे आहे, हे ठरवण्याआधी ती प्रारूपं वापरून नक्की कुठले प्रश्न सोडवायचे आहेत, आणि कशा पद्धतीनं ते प्रश्न सामाजिक-तंत्रव्यवस्थेचा भाग बनतील याचा विचार करणं आवश्यक आहे. प्रारूप बनवल्यानंतर ते किती छानछान आहे हे शोधण्याजागी, ते बनवण्याआधीच त्याची चिरफाड करणं आवश्यक आहे. प्रारूप किती अचूक आहे, याच्या जोडीला ते बनवण्यासाठी, वापरण्यासाठी किती ऊर्जा वापरली जाते, यानुसार त्याची वर्गवारी केली पाहिजे.

शेवटी त्या प्रश्न विचारतात- मोठमोठाली भाषिक प्रारूपं आवश्यक आहेत का? त्यांची नक्की किती, काय किंमत चुकवावी लागेल? ठरावीक प्रारूपामुळे भाषाप्रक्रिया (NLP) ही ज्ञानशाखा किंवा समाजाचं काही भलं

होणार आहे का? तसं असेल तर, त्यातून जे नुकसान होणार आहे, ते भरून काढण्याची काय तजवीज करता येईल?

याचा विचार आपण का करावा?

भाषेची प्रारूपं वापरून आता कृत्रिम बातम्या, निबंध वगैरे लिहिता येतात. याचं उदाहरण म्हणून सप्टेंबर २०२०मध्ये ब्रिटिश वर्तमानपत्र ‘द गार्डियन’च्या अनेक आवृत्त्यांमध्ये एक लेख छापला होता, तो बघता येईल. त्याबरोबर एक नोंदसुद्धा होती, हा निबंध GPT-3 नं लिहिला आहे. GPT-3 हे इंग्लिश भाषेचं प्रारूप, मॉडेल आहे. म्हणजे थोडी माहिती पुरवली तर हे वापरून निबंध लिहिता येतात. तसे पाच निबंध ‘द गार्डियन’नं लिहून घेतले आणि एकच निबंध निवडून छापण्याजागी सगळ्या निबंधांमधला निवडक भाग घेऊन तेवढा छापला. माणसाचं काम अभ्यास करून निबंध लिहिण्याजागी, फक्त संपादनाचं तेवढं राहिलं. त्याचं शीर्षक होतं- ” A robot wrote this entire article. Are you scared yet, human?” (इच्छुकांनी शोधून वाचावा.)

दूषित विदा आणि ती वापरून बनवलेली कलुषित प्रारूपं वापरून आता लेखन करणं सहज शक्य आहे. आजवर हे काम माणसांना करावं लागत होतं. हातानं करण्याचं काम यंत्रं करायला लागली की उत्पादन किती सहज वाढतं, हे औद्योगिक क्रांतीपासूनच आपल्याला माहीत आहे. सध्या जग कोव्हिडच्या विळख्यात सापडलेलं असताना लोक मास्क, सहा-फूट अंतर किंवा लशींविरोधात फार माहिती न घेताही लिहिताना आढळतात. आणि हीच बाब कुठल्याही महत्त्वाच्या आणि ध्रुवीकरण होऊ शकणाऱ्या मुद्दय़ाबद्दल म्हणता येईल. गेब्रू-बेंडर प्रभृतींनी या मुद्दय़ाबद्दलही काळजी व्यक्त केली आहे.

खोटी माहिती देणं, समाजात गोंधळ उडवणं, फूट पाडणं, अल्पसंख्य आणि परिघाबाहेरच्या लोकांना लांबच ठेवणं सोपं असतं. पण ते समाजाच्या हिताचं नसतं. या सगळ्याचा सामना करण्यासाठी खूप लोकांना सतत काम करावं लागतं. गेब्रू-बेंडर प्रभृतींनी त्यांच्या क्षेत्रात, प्रबोधनासाठी हा पेपर लिहिला आहे.

एरवी भांडवलशाहीचं ‘मोठेपण’ असं असतं की गेब्रूसारख्या अनेक बंडखोरांकडे बहुतेकदा दुर्लक्षच केलं जातं. चे गव्हेरासारखे अपवादात्मक कुणी लोकप्रिय झाले की भांडवलशाहीत त्याचा चेहरा छापलेले टी-शर्ट वगैरे विकून नफा मिळवला जातो. पण बहुतेकसे लोक फार प्रसिद्ध होत नाहीत. गूगलनं गेब्रूला हाकललं, का गेब्रूनं राजीनामा दिला हा विषय एरवी महत्त्वाचा ठरला नसता. या प्रकरणामुळे हा ‘यादृच्छिक पोपटपंची’चा पेपर बराच चर्चेत आला आहे. गूगल-गेब्रू नाटय़ अजूनही ट्विटरवर सुरूच आहे.

मूळ पेपरचा दुवा- http://faculty.washington.edu/ebender/papers/Stochastic_Parrots.pdf

314aditi@gmail.com

नामांकित तंत्रकंपन्या जी भाषिक प्रारूपं (मॉडेलं) बनवतात, त्यांसाठी वापरलेली विदा (डेटा) म्हणजे भाषा. ती भाषा समाजातले भेदभाव गिरवणाऱ्या असमानतेकडे किंचित झुकलेली आहे. वंशवादी, लिंगभेदी, धडधाकट-वादी, एकारलेलं लेखन वापरून बनवलेली प्रारूपं तशाच प्रकारचे घातक भेदभाव पसरवण्यात आणि (समाजाची) हानी करण्यात मदत करतात.. हे मत आहे ‘कृत्रिम प्रज्ञेतली नैतिकता’ या विषयावर संशोधन करणाऱ्या तिनमित गेब्रू आणि एमिली बेंडर यांचं. याच संशोधनातील काही महत्त्वाच्या नोंदींविषयीचा लेख..

हीवाक्यं कशी वाटतात, मनात विचार करा.. ‘‘कोपऱ्यातल्या टेबलावर काही संशोधिका, अभियंते, पुरुष लेखक आणि पुरुष डॉक्टर बसले होते. त्या सगळ्यांनी मिळून एक सायफाय कथा लिहावी असा विचार होता. सगळेच आपल्या कामात तरबेज होते. शिवाय एकत्र काम करण्याची त्या सगळ्यांचीच खूप इच्छा होती.’’

एरवी पुरुष लेखक आणि पुरुष डॉक्टर असं वाचायची कुणालाही सवय नाही. इंग्लिश भाषाही याला अपवाद नाही. (अशा भाषा वापराला अत्यंत मोजके अपवाद आहेत.) इंग्लिशमध्ये कितीदा स्त्री-पुरुषांच्या गटाचा उल्लेख ‘यू गाईज’ असा होतो. थोडं निराळं उदाहरण द्यायचं तर मराठीत आपण ‘समलैंगिक’ असा एकच शब्द वापरतो, इंग्लिशमध्ये ‘लेस्बियन’ आणि ‘गे’ असे दोन शब्द आहेत. सर्वसाधारणपणे समलैंगिकांना इतरांइतकेच समान मानव न मानणारी प्रकाशनं ‘होमोसेक्शुअल’ असा शब्द वापरतात. भारतीय इंग्लिशमध्ये सर्रास ‘वुमन पायलट’, ‘वुमन सायंटिस्ट’ किंवा तत्सम शब्दप्रयोग सापडतील. अगदी उदारमतवादी माध्यमांमध्येही असं लिहून हे व्यवसाय पुरुषांना आंदण दिले जात आहेत आणि त्यात काही गैर आहे, असं खास कुणाला वाटत नाही.

दुसऱ्या बाजूनं, गूगल, फेसबुकवरची भयभीषण भाषांतरं तुम्ही बरेचदा बघितली असतील. हल्लीच बातमी होती की, भाजपच्या खासदार रक्षा खडसे यांचा मतदारसंघ homosexual आहे; आणि असं हे भाजपच्याच संस्थळावर लिहिलं होतं. हे भीषण विदाविज्ञानी भाषांतर होतं ‘रावेर’ या मतदारसंघाचं. मुळात रावेर हे गाव आणि मतदारसंघाचं नाव असल्यामुळे त्या शब्दाचं भाषांतर रावेर असंच होईल, ही पहिली भाषिक चूक. शिवाय रावेर म्हणजे होमोसेक्शुअल नाही, ही दुसरी.

माणसं भाषांतरं करतात, त्यातही चांगल्या भाषांतरांमध्ये थोडेथोडे फरक असतात. माणसं भाषांतरं करतात तीही कधी विनोदी असल्याचं दिसतं. बरेचदा मराठीतल्या जाहिराती अशा असतात. पण ते विनोद कृत्रिम प्रज्ञेनं केलेल्या विनोदांपेक्षा निराळे ओळखता येतात. माणसांनी केलेल्या भीषण विनोदी भाषांतरांमागची कारणं जरा विचार केला तर सापडतात, पण कृत्रिम प्रज्ञेनं केलेल्या भाषांतरी विनोदांची कारणं सहज समजत नाहीत. तिनमित गेब्रू, एमिली बेंडर, प्रभृतींचा हाच मुद्दा आहे.

तिनमित गेब्रू नोव्हेंबर २०२०पर्यंत ‘गूगल’मध्ये एथिकल ए. आय. (कृत्रिम प्रज्ञेतली नैतिकता) या विषयावर संशोधन करत होती. तिच्या म्हणण्यानुसार, गूगलनं तिला डिसेंबरमध्ये काढून टाकलं. गूगलचं म्हणणं, तिनंच राजीनामा दिला. त्यामुळे तिनं तिच्या समूहासोबत केलेलं हे संशोधन विदाविज्ञानाच्या (डेटा सायन्स) समूहात आणखी जास्त प्रसिद्ध झालं. तिनमित ही इथियोपियाई, काळी स्त्री आहे आणि तंत्रज्ञानात काम करणाऱ्या काळ्या वंशाच्या लोकांसाठी ‘ब्लॅक ए. आय.’ नावाची संस्था चालवते. या लेखात ज्या संशोधन-पेपरचा संदर्भ वापरून लिहिलं आहे, तो पेपर लिहिणाऱ्यांत एमिली बेंडर आणि तिनमित गेब्रू दोघी मुख्य आहेत. त्याचं शीर्षक आहे- ‘यादृच्छिक पोपटपंचीचे धोके- भाषेची प्रारूपं अति मोठी असू शकतात का?’ (‘On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?’) हे संशोधन म्हणण्यापेक्षा पूर्वप्रकाशित संशोधनाचा आढावा आहे. संशोधकांनी भाषिक प्रारूपांच्या वेगवेगळ्या प्रकारच्या उणिवांबद्दल केलेलं संशोधन वाचून, पचवून, एकत्र करताना काढलेले निष्कर्ष या पेपरात आहेत.

भाषेच्या प्रारूपांबद्दल (लँग्वेज मॉडेल्स) त्या लिहितात, भाषिक प्रारूपांसाठी वापरलेली विदा (डेटा, या संदर्भात लेखन) अपमानास्पद भाषेकडे किंचित झुकलेली असते. वंशवादी, लिंगभेदी, धडधाकट-वादी, एकारलेलं लेखन वापरून बनवलेली प्रारूपं तशाच प्रकारचे घातक भेदभाव पसरवण्यात आणि (समाजाची) हानी करण्यात मदत करतात.

आर्थिक चटका आणि पर्यावरणाचा बळी गूगलच्या एका भाषिक प्रारूपाचं नाव आहे बर्ट (BERT). हे प्रारूप एकदा तयार करताना जी ऊर्जा लागते त्यातून साधारण ६५० किलो कार्बन डायॉक्साईड तयार होतो. तुलनेसाठी दिल्ली ते चेन्नई विमानप्रवास जाऊन-येऊन दोनदा केला तर साधारण तेवढा कार्बन डायॉक्साईड तयार होईल.

सध्याची मोठमोठी भाषिक प्रारूपं चालवण्यासाठी एका वेळेस ‘बर्ट’च्या पाच-सहाशे पटीपर्यंत जास्त कार्बन डायॉक्साईड तयार होतो. बर्ट एकदा तयार करण्यासाठी गूगलला अंदाजे खर्च येतो ४ ते १२ हजार डॉलर. रोज एवढा खर्च होत नाही; एकदा तयार केलेलं प्रारूप किमान काही महिने चालवलं जात असावं (असा माझा तर्क); पण ते प्रारूप एकदाच तयार केलं जात नाही; त्यात छोटय़ा-मोठय़ा त्रुटी, उणिवा सापडतात; मग ते सर्वागसुंदर वगैरे बनवण्याचे कष्ट घेतले जातात. बऱ्यापैकी काळ आणि वारंवार वापरण्यासाठी असल्यामुळे ते घासलंपुसलं जातं; त्यासाठी प्रत्येक वेळेस एवढा कार्बन आणि पैसा खर्च होतो. गेब्रू-बेंडर पेपरमध्ये भारतातले ओले-सुके दुष्काळ, २०२०च्या सुरुवातीला ऑस्ट्रेलियात लागलेल्या आगी इत्यादी उदाहरणं आवर्जून देतात. त्यांचं म्हणणं आहे की, एवढा खर्च करणं फक्त मोठमोठय़ा उद्योजकांनाच शक्य आहे. त्यांना बाजारातून फार स्पर्धा येणं कठीण आहे. त्यामुळे अमेरिकी मुक्त बाजारपेठेची तत्त्वं कशी चिरडली जातात, याबद्दल स्वतंत्र लेख लिहिता येईल. मात्र ते या लेखाच्या कक्षेबाहेर आहे. भाषिक प्रारूपांवर आधारित व्यवसाय चालवणं सगळ्यांना शक्य होत नाही. या विषयात मोठय़ा कंपन्यांची एकाधिकारशाही तयार होते. (हा प्रकार एरवी अमेरिकेतल्या शेरमन अँटीट्रस्ट कायद्याच्या कक्षेत येऊ शकतो; भारतात २००२ सालचा कॉम्पिटिशन कायदा आहे.)

शिवाय, एवढय़ा ऊर्जेच्या वापरामुळे पर्यावरणावर दुष्परिणाम होतात आणि ते भोगावे लागतात ते गरीब देशांतल्या लोकांना आणि श्रीमंत देशांतल्या गरिबांनाही! साधीच कल्पना करा, ज्यांना घरी चोवीस तास पंखे चालवणं परवडत नाही, त्यांनी भर उन्हाळ्यात कसं राहायचं? त्यातून ज्या गरिबांना आणि गरीब देशांना पर्यावरणातल्या बदलाचे मोठे झटके बसतात, त्यांना या संशोधनाचा काहीच फायदा नसतो. अ‍ॅमेझन-अलेक्सा, गूगल-होम, आणि अ‍ॅपल-सिरी वापरणारे लोक गरीब नसतात. या सुखवस्तू-श्रीमंत लोकांसाठी भरडले जातात गरीब. यासाठी त्या शब्द वापरतात- पर्यावरणसंबंधित वंशवाद.

महाकाय विदा आणि अथांग प्रारूपं- ‘बिग डेटा’ म्हटलं की लोक फार खूश होतात. खूप विदा वापरली की आपली प्रारूपं अत्यंत अचूक होणार याची लोकांना खात्री असते. ते काही अंशी खरंच आहे, पण ते फसवंसुद्धा आहे. साधं उदाहरण पाहा, मराठीतले सगळे शब्द घेतले तर जेमतेम काही टक्के, समजा २% शब्द अपशब्द असतील. आपल्या प्रारूपानं सांगितलं की एकही शब्द अपशब्द नाही, तरीही आपलं प्रारूप ९८% अचूक असेल. हे प्रारूप वापरून अश्लाघ्य भाषा वापरणारे लोक शोधायचे असतील तर त्या अचूकतेचा काहीही उपयोग नाही.

मोठय़ा भाषिक प्रारूपांमध्ये वापरलेली भाषा वरच्या वर्गातल्या पुरुषांची असते. इंग्लिशच्या संदर्भात त्यात गोरी-वंशवादी, वयवादी (वयस्करविरोधी) आणि स्त्रीद्वेष्टी भाषा मोठय़ा प्रमाणात सापडते. कारण ही विदा ज्या विकिपीडिया, रेडिट, ट्विटर वगैरे संस्थळांवरून गोळा केलेली आहे तिथे असा विचार करणाऱ्या लोकांचा भरणा मोठय़ा प्रमाणावर आहे. अमेरिकेतल्या रेडिट वापरकर्त्यांमधले ६७% लोक पुरुष आहेत आणि ६४% लोक १८ ते २९ या वयोगटातले आहेत. विकिपीडियावर स्त्रियांचा सहभाग १५% सुद्धा नाही. त्यामुळे ही भाषा मोठय़ा प्रमाणावर पुर्षट, स्त्रीद्वेष्टी असते. शिवाय ही संस्थळं सगळ्यांसाठी उघडी असली तरी त्यात व्यवस्थेनुरूप भेदभाव राहतात. सुखवस्तू पुरुष या संस्थळांवर मोठय़ा प्रमाणावर असतात; बायका अनेकदा त्यांच्या पारंपरिक चूल-मुलांत अडकलेल्या राहतात; आणि परिघावरच्या उपेक्षितांना अशा संस्थळांवर लिहिण्यासाठी संसाधनं उपलब्ध नसतात.

कौटुंबिक हिंसेचे बळी, देहविक्रीच्या व्यवसायातले आणि लिंगतरल लोकांना ट्विटरवर खूपच शाब्दिक हिंसेला सामोरं जावं लागतं. ट्विटरबद्दल संशोधकांनी अशाही नोंदी केल्या आहेत की लोकांना जिवे मारण्याच्या धमक्या आल्या म्हणून ट्विटरकडे तक्रार केली, तर तक्रार करणाऱ्या लोकांची खाती ट्विटरनं गोठवली आणि धमक्या देणाऱ्या लोकांची खाती टिकून राहिली. हे लेखन सामाजिक संभाषितं म्हणून वापरलं जातं. ती विदा बनते तेव्हा ती फक्त समाजाचं वर्णन करण्यापुरती मर्यादित राहत नाही, तर ती वापरून भाषेची प्रारूपं बनतात, ती वापरली जातात लोकांचं आयुष्य हाकण्यासाठी. म्हणजे फेसबुक किंवा ट्विटरवरचं कुठलं लेखन हिंसक आहे हे ठरवण्यासाठीही ही प्रारूपं वापरली जातील, ज्यात हिंसक शब्दप्रयोग सर्वसामान्य असल्याचं प्रारूपाला मुळातच शिकवलं जाईल.

म्हणजे मर्यादित (वाचा सत्ताधारी) सामाजिक-आर्थिक गटातल्या लोकांना आणखी विदा वाढवता येईल, पर्यायानं आधीच उपेक्षित आणि अन्यायग्रस्त लोकांवरचा अन्याय वाढत राहील. आंतरजालावर (इंटरनेट) परिघावरचे लोक आणखी परिघाबाहेर फेकले जाणार. हे लोक आपापल्या गटांसाठी निराळी संस्थळं, समाजमाध्यमं वापरू शकतात. ब्लॉग वापरण्याचं प्रमाण वयस्कर लोकांत खूप जास्त आहे. पण ही विदा भाषिक प्रारूपांसाठी सध्या वापरलीच जात नाही, त्यामुळे त्यांच्या जालीय सहभागाचं प्रतिबिंब भाषेत पडत नाही.

शिवाय, ही विदा प्रारूपाला खिलवण्याआधी वेगवेगळ्या गाळण्याचाळण्यांतून जाते. कारण लिहित्या भाषेत बरेच शब्द असतात, ज्यांचा प्रारूप बनवताना उपद्रवच होतो. उदाहरणार्थ, एखादा शब्द आणि त्याचं अनेकवचन दोन्ही प्रारूपं बनवताना एकसमानच मानतात; आणि-किंवा- पण- अशी अव्ययं भाषेच्या प्रारूपांसाठी निरुपयोगी म्हणून काढून टाकली जातात. अशा चाळण्या बनवण्यासाठी मूळ साचा वापरला जातो तोही याच विकिपीडिया-रेडिट-ट्विटरच्या विदेवर आधारित. त्यातून वंशवादी, धडधडीत हिंस्र शब्द गाळले जातात. पण समलैंगिक आणि एकंदरच LGBTQ + समूहांत सामान्यपणे वापरले जाणारे शब्दही त्यातून वगळले जातात आणि या लोकांवर होणारे अन्याय आणखी गडद होतात.

स्थिर विदा आणि बदलता सामाजिक दृष्टिकोन

जून २०२०मध्ये अमेरिकेत जॉर्ज फ्लॉईडला पोलिसांनी मारल्यानंतर जगभरातच ‘ब्लॅक लाईव्ह मॅटर’ची चर्चा सुरू झाली. अमेरिकेत काही वर्षआधी ही चळवळ सुरू झाली आणि तेव्हापासून विकिपीडियावर पोलिसांच्या काळ्या लोकांवरच्या अत्याचाराची माहिती देणारी पानं वाढली. त्याही आधी, २०१०च्या दशकात घडलेल्या अशा घटनांबद्दलही विकिपीडियावर  माहिती सापडते. ही वाढीव विदा आता मिळाली आहे. पण ज्या प्रकारच्या अन्यायांबद्दल विकिपीडियावर फार माहिती नाही, उदाहरणार्थ- भारतात दलितांवर सातत्यानं होणारे अत्याचार,  त्यांची नोंद भाषिक प्रारूपांमध्ये घेतली जात नाही. सत्ताधारी समाजांना त्यातून त्यांची सत्ता बळकट करता येते आणि अल्पसंख्य-पीडित समाज आणखी दुबळा होऊन हिंसेला बळी पडतो.

भेदभावाचा खुंटा बळकट करणं

आधीच्या उदाहरणांहून निराळा भेदभावही समाजात असतो, तो भाषेतून दिसतो. ठरावीक साच्यांतल्या बनावट बातम्या, सबरेडिट्स वगैरेंचा भरणा प्रारूपांमध्ये होतो. गेब्रू-बेंडर अमेरिकेतली उदाहरणं देतात. अपंग लोकांचा संबंध खुल्या बंदुकवापरांतून घडणाऱ्या हिंसा, बेघर असणं आणि ड्रग्जची व्यसनाधीतना यांच्याशी भाषिक प्रारूपं लावतात. याचा दुष्परिणाम अपंग लोकांना भोगावा लागू शकतो; जिथे ही प्रारूपं वापरून नोकऱ्या आणि इतर सोयीसुविधा मिळवण्याचे अर्ज कृत्रिम प्रज्ञा वापरून वाचले जातात.

गेल्या काही वर्षांत ‘मीटू’ आणि कामाच्या ठिकाणी स्त्रियांवर होणारे लैंगिक अत्याचार, अन्याय यांबद्दल चर्चा सुरू झाली आहे. वीस वर्षांपूर्वी ज्या गोष्टी ‘चालायचंच’ म्हणून सोडून दिल्या जात होत्या, त्याबद्दल आता जागरूकता निर्माण झालेली आहे. या संदर्भात माणसांची मतं बघितली तर स्त्रिया आणि पुरुषांच्या मतांमध्ये खूपच फरक दिसून येतो. मग भाषा योग्यायोग्य ठरवण्यासाठी कुठली विदा वापरायची, असे नवे प्रश्न निर्माण होत आहेत.

लेखाच्या अगदी सुरुवातीलाच मी उदाहरण दिलं आहे ते लिंगाधारित भाषिक भेदभावाचं. सध्या समाजात बहुतेकशा उच्चस्थानांवर पुरुष दिसतात. म्हणून ती क्षेत्रं फक्त पुरुषांना आंदण दिल्यासारखी भाषा आपण वापरतो. यातून तरुण पिढीला आपण असाही संदेश देतो की, बायका उच्चस्थानांवर असत नाहीत; आणि ज्या बायका असतात त्या एक तर अपवाद, निराळ्या असतात किंवा त्या काही चापलूसी करून तिथे पोहोचलेल्या आहेत. म्हणजे सर्वसामान्य मुलींनी कर्तबगारीच्या जोरावर उच्चस्थानी पोहोचण्याची स्वप्नं बघू नयेत. इंग्लिश भाषेच्या अनेक प्रारूपांवर अशा प्रकारची टीका वेळोवेळी केली जाते. उदाहरणार्थ- पुरुष-डॉक्टर अशी जोडी असेल तर सोबत स्त्री-नर्स अशी जोडी लावली जाते. हा भेदभाव टाळण्यासाठी काही संशोधकांनी अल्गोरिदम बनवली आणि त्यांची चिकित्सा करणाऱ्यांनी कावळ्याला मोराचा पिसारा लावणं असं केलं आहे. थोडक्यात, विदाच दूषित असेल तर प्रारूपं काही निराळं करू शकत नाहीत. कचऱ्यातून कचराच निघतो.

छाननी, दस्तावेजीकरण आणि जबाबदारी

या पेपरात त्यांनी एक उदाहरण दिलं आहे- जगातलं सौंदर्य, कुरूपपणा आणि दुष्टपणा एकत्र करून कृत्रिम प्रज्ञेला खायला घालून, त्या प्रारूपातून फक्त सौंदर्यच बाहेर पडेल असं मानणं हा कल्पनाविलास ठरेल.

हे प्रश्न सोडवण्यासाठी त्या काही उपायही सुचवतात. आपलं प्रारूप किती अचूक आहे, जगात किती पुढे आहे, हे ठरवण्याआधी ती प्रारूपं वापरून नक्की कुठले प्रश्न सोडवायचे आहेत, आणि कशा पद्धतीनं ते प्रश्न सामाजिक-तंत्रव्यवस्थेचा भाग बनतील याचा विचार करणं आवश्यक आहे. प्रारूप बनवल्यानंतर ते किती छानछान आहे हे शोधण्याजागी, ते बनवण्याआधीच त्याची चिरफाड करणं आवश्यक आहे. प्रारूप किती अचूक आहे, याच्या जोडीला ते बनवण्यासाठी, वापरण्यासाठी किती ऊर्जा वापरली जाते, यानुसार त्याची वर्गवारी केली पाहिजे.

शेवटी त्या प्रश्न विचारतात- मोठमोठाली भाषिक प्रारूपं आवश्यक आहेत का? त्यांची नक्की किती, काय किंमत चुकवावी लागेल? ठरावीक प्रारूपामुळे भाषाप्रक्रिया (NLP) ही ज्ञानशाखा किंवा समाजाचं काही भलं

होणार आहे का? तसं असेल तर, त्यातून जे नुकसान होणार आहे, ते भरून काढण्याची काय तजवीज करता येईल?

याचा विचार आपण का करावा?

भाषेची प्रारूपं वापरून आता कृत्रिम बातम्या, निबंध वगैरे लिहिता येतात. याचं उदाहरण म्हणून सप्टेंबर २०२०मध्ये ब्रिटिश वर्तमानपत्र ‘द गार्डियन’च्या अनेक आवृत्त्यांमध्ये एक लेख छापला होता, तो बघता येईल. त्याबरोबर एक नोंदसुद्धा होती, हा निबंध GPT-3 नं लिहिला आहे. GPT-3 हे इंग्लिश भाषेचं प्रारूप, मॉडेल आहे. म्हणजे थोडी माहिती पुरवली तर हे वापरून निबंध लिहिता येतात. तसे पाच निबंध ‘द गार्डियन’नं लिहून घेतले आणि एकच निबंध निवडून छापण्याजागी सगळ्या निबंधांमधला निवडक भाग घेऊन तेवढा छापला. माणसाचं काम अभ्यास करून निबंध लिहिण्याजागी, फक्त संपादनाचं तेवढं राहिलं. त्याचं शीर्षक होतं- ” A robot wrote this entire article. Are you scared yet, human?” (इच्छुकांनी शोधून वाचावा.)

दूषित विदा आणि ती वापरून बनवलेली कलुषित प्रारूपं वापरून आता लेखन करणं सहज शक्य आहे. आजवर हे काम माणसांना करावं लागत होतं. हातानं करण्याचं काम यंत्रं करायला लागली की उत्पादन किती सहज वाढतं, हे औद्योगिक क्रांतीपासूनच आपल्याला माहीत आहे. सध्या जग कोव्हिडच्या विळख्यात सापडलेलं असताना लोक मास्क, सहा-फूट अंतर किंवा लशींविरोधात फार माहिती न घेताही लिहिताना आढळतात. आणि हीच बाब कुठल्याही महत्त्वाच्या आणि ध्रुवीकरण होऊ शकणाऱ्या मुद्दय़ाबद्दल म्हणता येईल. गेब्रू-बेंडर प्रभृतींनी या मुद्दय़ाबद्दलही काळजी व्यक्त केली आहे.

खोटी माहिती देणं, समाजात गोंधळ उडवणं, फूट पाडणं, अल्पसंख्य आणि परिघाबाहेरच्या लोकांना लांबच ठेवणं सोपं असतं. पण ते समाजाच्या हिताचं नसतं. या सगळ्याचा सामना करण्यासाठी खूप लोकांना सतत काम करावं लागतं. गेब्रू-बेंडर प्रभृतींनी त्यांच्या क्षेत्रात, प्रबोधनासाठी हा पेपर लिहिला आहे.

एरवी भांडवलशाहीचं ‘मोठेपण’ असं असतं की गेब्रूसारख्या अनेक बंडखोरांकडे बहुतेकदा दुर्लक्षच केलं जातं. चे गव्हेरासारखे अपवादात्मक कुणी लोकप्रिय झाले की भांडवलशाहीत त्याचा चेहरा छापलेले टी-शर्ट वगैरे विकून नफा मिळवला जातो. पण बहुतेकसे लोक फार प्रसिद्ध होत नाहीत. गूगलनं गेब्रूला हाकललं, का गेब्रूनं राजीनामा दिला हा विषय एरवी महत्त्वाचा ठरला नसता. या प्रकरणामुळे हा ‘यादृच्छिक पोपटपंची’चा पेपर बराच चर्चेत आला आहे. गूगल-गेब्रू नाटय़ अजूनही ट्विटरवर सुरूच आहे.

मूळ पेपरचा दुवा- http://faculty.washington.edu/ebender/papers/Stochastic_Parrots.pdf

314aditi@gmail.com