फक्त चार / पाच ओळींचा कोड लिहून आपण मराठी भाषेतील संबंधित तसेच विरुद्धार्थी शब्द शोधू शकतो. उदाहरण म्हणून मी "संगीत" हा शब्द दिल्यावर मॉडेलने "कला" , "कविता", "नाटक" , "महाराष्टर", " "भारत" असे शब्द दिले.
https://ic.pics.livejournal.com/shantanuo/56336/1952/1952_900.png
आता यात काय मोठे दिवे लावले? असा प्रश्न साहजिकच आहे. तसेच संगीताचा युद्धाशी आणि कंपनीशी कसा संबंध ते स्पष्ट करा असा उपरोधही अपेक्षित आहे. त्याचे उत्तरः
१) हे मॉडेल विकिपीडियावरून फार पूर्वी बनवलेले आहे. २०१३ साली मराठी विकिपीडियावर फारसे लेख नव्हते. जसा डेटा वाढत जाईल तशी क्वालिटी वाढेल. गुगल न्यूजचा डेटा वापरून वापरून बनवलेले (इंग्लिश) मॉडेल प्रसिद्ध आहे. मराठीला तेवढी उंची गाठायला वेळ लागेल. पण निदान शक्यता वाटू लागली आहे.
२) अनेकदा आवाहन करूनही मराठीसाठी काही करू शकणारे स्वयंसेवक मिळत नाहीत. ज्यांना वेळ आहे त्यांना संगणक हाताळता येत नाही. तर संगणक तत्ज्ञांना अशा कामासाठी वेळ नाही. मशीन लर्निंगच्या माध्यमातून भविष्यात मोठमोठे कोशदेखील सिद्ध होतील. असे कोश १००% अचूक नसतील हे मान्य. पण त्यातून कामाची निकड भागेल. हे महत्त्वाचे .
या क्षेत्राचे भवितव्य उज्ज्वल आहे. मराठीच नव्हे तर सर्व तरुणांनी यात लक्ष घालायला हवे.
१३ जून २०२० च्या पोस्टमध्ये
१३ जून २०२० च्या पोस्टमध्ये मी मशीन लर्निंग वापरून ग्रामर / स्पेल चेक कसा करता येईल याची कल्पना मांडली होती. त्यात मी म्हणालो होतो की "ती म्हणाली मी शाळेत जातो." हे वाक्य "ती म्हणाली की मी शाळेत जाते." असे बदलून मिळाले पाहिजे आणि हे मशीन लर्निंगच्या मॉडेलकडूनच होणे शक्य आहे. तीन वर्षांच्या आत असे एखादे मॉडेल बाजारात येईल असे मला स्वप्नातही वाटले नव्हते.
https://paraphrasetool.com/
उदाहरण म्हणून मी हा मजकूर टाईप केला.
गुरुवारच्या (दिनांक १८-०७-२०१३) महाराष्ट्र टाईमसमधे प्रा. जयंत नारळीकर यांनी शिक्षण क्षेत्रातील संशोधनाच्या बाजारीकरणा बाबतीत व्यक्त केलेली मते वाचली. या क्षेत्रातील दुरावस्थेचे खापर त्यांनी 'commercialization’ म्हणजे बाजारीकरणाच्या माथी मारले आहे. तसेच “बॅक टू फ्युचर” मधे पूर्व संकल्पनांच्या पगड्यामुळे खगोल भौतिकी विज्ञानवादी दृष्टीकोन समाजातून हद्दपार झाला आहे अशी खंत व्यक्त केली आहे. दुर्दैवाने प्रा. नारळीकर स्वतःच या पूर्व संकल्पनांना बळी पडले आहेत.
या वेबसाईटने खाली दिलेल्या सुधारणा सुचविल्या...
गुरुवारी जयंत नारळीकर यांनी महाराष्ट्र टाइम्समध्ये शिक्षणातील संशोधनाचे व्यापारीकरण या विषयावर चर्चा करणारा स्तंभ वाचला. संशोधनाचे ‘बाजारीकरण’ झाल्यामुळे ही परिस्थिती निर्माण झाली असून ही समस्या असल्याचे ते म्हणाले. त्याच आवृत्तीतील दुसर्या स्तंभात भविष्यातील समस्या आणि कालबाह्य पूर्वकल्पनांमुळे खगोलभौतिकी दृष्टीकोन समाजातून हद्दपार झाल्याबद्दल लोकांना खेद कसा वाटतो यावर चर्चा केली. मुंबईच्या इन्स्टिट्यूट ऑफ सायन्सचे प्राध्यापक जयंत नारळीकर हे याच पूर्वकल्पनेला बळी पडले आहेत.
![](https://kagapa.s3.ap-south-1.amazonaws.com/deep_learn/paraphrasetool.png)
यात काही त्रुटी आहेत हे उघड आहे. पण नुकतेच जन्मलेले मूल आपले बोलणे ऐकून स्वतःच्या भाषेत बोलत आहे हे लक्षात घेतल्यावर त्याचे महत्त्व जाणवेल. उदाहरणार्थ खाली दिलेल्या सुधारणा या नक्कीच स्वीकारता येण्यासारख्या आहेत असे मला वाटते.
बाजारीकरण > व्यापारीकरण
दुरावस्था > समस्या आणि कालबाह्य पूर्वकल्पना
'commercialization’ > ‘बाजारीकरण’
खंत व्यक्त केली > खेद वाटतो
व्यक्त केलेली मते वाचली > चर्चा करणारा स्तंभ वाचला
इतर काही नाही तर "टाईमसमधे" ही स्पेलिंग मिस्टेक "टाइम्समध्ये" अशी लीलया सुधारली गेली, हे काय कमी आहे?
सुंदर. निदान हे लोकसत्ताने
सुंदर. निदान हे लोकसत्ताने वापरले तरी बातम्यांची प्रत सुधारेल.
"मला सिंधू नदीच्या
"मला सिंधू नदीच्या संस्कृतीबद्दल सांगा" असा प्रश्न विचारल्यावर त्याचे खाली दिल्याप्रमाणे उत्तर देणारे मॉडेल अॅमेझॉनने विकसित केले आहे.
सिंधू संस्कृती म्हणजे सिंधू नदीच्या पट्टीकेतील प्राचीन संस्कृती होती. ही संस्कृती सुमारे ई.पू. ३३०० ते ई.पू. १३०० या कालखंडात फुलणारी होती. ती भारतातील कांस्ययुगीन संस्कृतींपैकी एक मोठी होती. या संस्कृतीचे अवशेष आजच्या पाकिस्तान, भारत आणि अफगाणिस्तानमध्ये आढळून आले आहेत. या संस्कृतीत नगररचना, नागरी सोयी सुविधांचा विकास झाला होता. जलवाहिनी, नगरदेवालय इत्यादी अद्भुत बाबी या संस्कृतीत होत्या. सिंधू संस्कृतीत लिपीसुद्धा विकसित झाली होती परंतु ती अजूनही वाचण्यास आलेली नाही. सिंधू संस्कृती ही भारतातील पहिली शहरी संस्कृती मानली जाते.
चॅट जीपीटी च्या जवळपास (मराठीतून) जाऊ शकेल असे हे मॉडेल आहे. अर्थात सध्या ते बाल्यावस्थेत असून खर्या अर्थाने वापरण्याजोगे बनायला वेळ लागेल. जर कोणाला हे मॉडेल कसे बनवितात ते मुळापासून वाचायचे असेल तर...
https://aws.amazon.com/blogs/machine-learning/indian-language-rag-with-c...
मराठी, हिंदी आणि नेपाळी या
मराठी, हिंदी आणि नेपाळी या तीन भाषा एकच देवनागरी लिपी वापरतात. सुरुवातीचे दोन - तीन शब्द टाईप केल्यावर मजकूर मराठी आहे की हिंदी भाषेतील हे कसे समजणार? त्यासाठी पायथॉन मॉड्यूल "फास्टस्पेल" इन्स्टॉल करावे लागेल. त्यानंतर हा दोन ओळींचा कोड लिहावा लागेल.
from fastspell import FastSpell
fsobj=FastSpell("en", mode="cons")
आता तुम्ही फक्त दोन शब्द देवनागरी लिपीत लिहून भाषा जाणून घेऊ शकता. उदाहरणार्थ पहिल्या ओळीसाठी मराठी "mr" आणि दुसर्यासाठी हिंदी "hi" असा रिप्लाय आला जो बरोबर आहे.
fsobj.getlang("आत्मा आणि")
#mr
fsobj.getlang("विकिपीडिया पर")
#hi
"आणि" हा शब्द फक्त मराठीत आहे, तर "पर" मुख्यत्वे हिंदीत. या सॉफ्टवेअरला हे सर्व आधीच शिकवून ठेवलेले असल्यामुळे एकाच लिपीतील दोन भाषांमध्ये गल्लत होत नाही. जे शब्द दोन्ही भाषेत असतील तेव्हा?
fsobj.getlang("आत्मा")
fsobj.getlang("विकिपीडिया")
वर दिलेल्या उदाहरणात पहिल्या ओळीला "hi" असा तर दुसर्या ओळीला "mr" असा रिप्लाय येत आहे. वास्तविक "आत्मा" आणि "विकिपीडिया" हे दोन्ही शब्द दोन्ही भाषेत आहेत. त्यामुळे या निर्णयाचे नेमके कारण मला सांगता येणार नाही. कदाचित शब्दांची त्या त्या भाषेतील वारंवारता विचारात घेतली गेली असावी.
मराठी विकीवर काही वेळा हिंदी मजकूर डकविलेला दिसतो. अशी पाने शोधून काढण्यासाठी हे मॉड्युल आपण वापरू शकतो. तसेच एका भाषेचा दुसर्या भाषेवर कसा आणि किती प्रभाव पडत आहे याचा अभ्यास करणार्यांना देखील याचा उपयोग करून घेता येईल.
ज्यांना पायथॉन कोड लिहिता येत
ज्यांना पायथॉन कोड लिहिता येत नाही ते या दुव्यावर जाऊन संगणक भाषा कशी ओळखतो हे पाहू शकता.
https://tinyurl.com/kv5dr9v6
"आत्मा आणि" हे दोन शब्द १००% मराठी आहेत हे या फेसबुकच्या सॉफ्टवेअरने बरोबर ओळखले आहे. पण जर फक्त "आत्मा" हा शब्द लिहिला तर तो शब्द नेपाळी भाषेतील आहे असे त्याचे म्हणणे आहे. मराठी / हिंदी भाषेतही त्या शब्दाचा वापर आहे पण त्याचे प्रमाण नेपाळी भाषेच्या तुलनेत फारच कमी. सुधारण्याला सगळीकडे वाव असतो!
बदला लुंगी टाकल्यावर मराठी
बदला लुंगी टाकल्यावर मराठी आहे सांगतो की हिंदी?
बोकलत साहेब, वर दिलेल्या
बोकलत साहेब, वर दिलेल्या दुव्यावर जाऊन तुम्ही स्वतः कोणताही शब्द टाकून खात्री करू शकता. कदाचित कामाच्या व्यापामुळे तुम्हाला त्या दुव्यावर जाण्याइतका वेळ मिळत नसावा आणि म्हणून तुम्ही मला विचारले असावे असे गृहीत धरून मी त्या दुव्यावर जाऊन तुम्ही दिलेले दोन शब्द टाईप केले. मला हिंदी असा रिप्लाय मिळाला. तुम्हाला मराठी असा प्रतिसाद अपेक्षित होता का? तसे असेल तर त्या दुव्यावर "community" असा जो टॅब आहे त्यात तुम्ही ही गोष्ट नमूद करू शकता. तुमचा फीडबॅक लक्षात घेऊन फेसबूक आपल्या मॉडेलमध्ये सुधारणा करेल.
हा धागा "मशीन लर्निंग" या विषयाशी संबंधित आहे ही गोष्ट शीर्षकावरूनच स्पष्ट होत आहे. आपल्याला त्या विषयात किती रुची किंवा अभ्यास आहे याची मला कल्पना नाही. फक्त टाईमपास करण्यासाठी म्हणून जर तुम्ही वरील प्रतिसाद दिला असेल तर तुमचा हेतू सफल झाला असे म्हणता येईल. कारण तुम्ही दिलेले शब्द तपासण्यात आणि ही कमेंट टाईप करण्यात माझा बराच वेळ गेला. तो वेळ वाया गेला असे मी म्हणणार नाही. कारण या धाग्याच्या निमित्ताने "पायथॉन" या संगणकीय भाषेची ओळख जास्तीत जास्त लोकांना व्हावी हा माझा छुपा हेतू उघड करता आला. तुम्ही तुमचा हेतू (छुपा किंवा उघड जो असेल तो) स्पष्ट केलात तर त्या निमित्ताने मी आणखी कमेंट करून हा धागा वाढवत नेईन.
गंमत म्हणून बोकलत यांचा
गंमत म्हणून बोकलत यांचा प्रतिसाद आवडला. पण सिरीयसली बोलायचं तर हिंदीत ते "लूँगी" असं हवं ना? या शब्दात हिंदीत चंद्र बिंदी येते असा माझा समज आहे. ते नसेल तर शब्द मराठी होईल. समज चुकीचा असल्यास आधीच माफी मागतो.
शंतनूजी काही वर्षांपूर्वी मी
शंतनूजी काही वर्षांपूर्वी मी एक जोक ऐकला होता नवरा बायकोत भांडण होतं आणि बायको रागाने बदला लुंगी बोलते तेव्हा नवरा विचारतो हिंदीत बोललीस की मराठीत? म्हणून मी बोललो चला बघू तुम्ही दिलेल्या लिंकवर टाकून तर तिथे लॉगिन रजिस्ट्रेशन करायला लावत होते म्हणून या धाग्यावर टाकलं. बाकी टाईमपास करायला माझ्याकडे पुष्कळ गोष्टी आहेत. वर्षातून जेमतेम दोन तीन कमेंट येणाऱ्या मलूल पडलेल्या धाग्यावर येऊन टाईमपास करण्याइतकं आयुष्य डाऊनग्रेड नाही झालय अजून धन्यवाद.
मी दिलेल्या लिंकवर तुमचे
मी दिलेल्या लिंकवर तुमचे आधीपासून लॉगिन नाही याचा अर्थ मशिन लर्निंग हा तुमचा प्रांत नाही हे स्पष्ट आहे. मोफत रजिस्ट्रेशन करण्याइतके देखील त्या साईटचे महत्त्व तुम्हाला वाटत नाही याचा अर्थ तुम्हाला या विषयाची आवडही नाही हे देखील स्पष्ट आहे. लॉगिन/ रजिस्ट्रेशन अशा फालतू गोष्टीत वेळ घालवण्यापेक्षा इथे प्रतिसादात विचारणे तुमच्या दृष्टीने अधिक सोयीचे होते ही गोष्ट पटण्यासारखी आहे. पण ही गोष्ट आधीच सांगायला हवी होती म्हणजे माझा गैरसमज झाला नसता. तुम्हाला (किंवा इतर कुणाला) अजून कोणते शब्द चेक करून हवे आहेत का?
"वर्षातून जेमतेम दोन तीन कमेंट येणाऱ्या मलूल पडलेल्या धाग्यावर" ह्या टोमण्याविषयी थोडे अधिक विस्ताराने लिहावे लागेल. धाग्यावर किती कमेंट येतात हा त्या धाग्याचे महत्त्व ठरविण्याचा निकष होऊ शकत नाही. "मशिन लर्निंग" आणि "आर्टिफिशीयल इंटलिजन्स" या विषयावर फारसे प्रतिसाद येणार नाहीत हे अपेक्षितच आहे. "शाहरूख खानचे चित्रपट" या विषयावरील धाग्यावर कदाचित खूप प्रतिसाद मिळत असतील पण तो विषयच मुळात "मासेस"ना अपील होणारा असतो. "क्लासेस" ची गोष्टच वेगळी असते. उदाहरणार्थ मी वरच्या प्रतिसादात (२ जुलै २४) एक लिंक दिली आहे त्या लिंकवर चुकून गेलात तर त्याचे शीर्षक असे आहे. "Indian language RAG with Cohere multilingual embeddings and Anthropic Claude 3 on Amazon Bedrock". ह्यातील किती शब्द वाचकांना कळतील? (with, ,and, on असे शब्द सोडून?) माझी तशी अपेक्षाही नाही कारण तो दुवा टेक्निकल लोकांसाठीच होता. गंमत म्हणून कोणी त्या दुव्यावर गेला आणि गंमत म्हणून तो लेख वाचला तर त्याला नस्ता ताप होऊन डोकेदुखी होण्याची शक्यता आहे म्हणून हा डिस्क्लेमर.
"मशिन लर्निंग" या विषयावरील धाग्यावर आल्याने एखाद्याला आपले आयुष्य डाउनग्रेड झाल्यासारखे वाटले तर त्याला माझा नाइलाज आहे. पण आपल्या माहितीसाठी म्हणून सांगतो की सध्या त्या विषयाचे मार्केट तुम्हाला वाटते तितके घसरलेले नाही. ओपन ए-आय ही या क्षेत्रातील आघाडीची कंपनी असून तिचे सध्याचे मार्केट व्हॅल्युएशन आहे १५७ बिलियन डॉलर!
Pages