डेटा सायन्सची ओळख
डेटा सायन्स म्हणजे काय? नावांनुसार डेटा सायन्स हे विज्ञानाचे एक क्षेत्र आहे जे डेटाशी संबंधित आहे. हे डेटा विश्लेषण करण्यासाठी संगणक आणि गणिताची सामर्थ्य एकत्रित करते, त्यामधून महत्वाची माहिती काढते आणि उपयुक्त माहिती मिळविण्यासाठी या माहितीवर प्रक्रिया करते.
आपण डेटा सायन्स कसा वापरू शकतो?
आम्ही डेटा विज्ञान वापरू शकतो असे दोन मार्ग आहेत:
१)डेटाचे विश्लेषण करून समस्येचे निराकरण शोधत आहे.
२)डेटाचे विश्लेषण करणे आणि अंमलात आणल्या जाणार्या नवीन समस्यांसह किंवा त्याद्वारे सोडविल्या जाणार्या नवीन समस्या येऊ शकतात.
डेटा विज्ञानाचे वर्गीकरण
डेटा सायन्सचे खाली वर्गीकरण केले जाऊ शकते:
१)माहिती मिळवणे .
२)डेटा विश्लेषण .
३)डेटा व्हिज्युअलायझेशन.
आम्ही या तिन्ही प्रत्येकावर थोडक्यात माहिती देऊ ...
माहिती मिळवणे
तत्त्वज्ञानात, ज्या गोष्टी ज्ञात आहेत किंवा ज्याला गृहित धरले जाते अशा गोष्टींना आपण तथ्ये मानतो ज्यायोगे तर्कशास्त्र आणि आकडेमोडीची मूलतत्वे डेटा म्हणून ओळखली जातात. माणसे अनेक युगांपासून करत आलेले डेटा गोळा करणे ही सर्वात सामान्य गोष्ट आहे. आमचे पूर्वज आपल्या गुराढोरांची संख्या लक्षात ठेवण्यासाठी किंवा त्यांच्या आयुष्याबद्दल किंवा त्यांना मिळालेल्या ज्ञानाविषयी आठवणी तयार करतात जे त्यांना पुढच्या पिढीकडे जायचे आहे. आधुनिक जगात, डेटा गोळा करण्याचा मूळ हेतू विद्यमान समस्यांचे निराकरण करण्यासाठी त्याचा वापर करणे आहे. आम्ही प्रामुख्याने या भिन्न प्रकारांमध्ये डेटा संकलित करतो जसेः
•ध्वनी डेटा
•व्हिज्युअल डेटा
•मजकूर डेटा
डेटाचे प्रकार
डेटाचे दोन मुख्य प्रकार आहेत: संरचित डेटा संरचित डेटा आयोजित केलेली माहिती आहे. उदाहरणार्थ, डेटा सेट ज्यामध्ये दोन भिन्न स्तंभात नावे आणि रोल नंबर असतात. संरचित डेटा ही माहितीचा संग्रह आहे ज्यावर प्रक्रिया केली जात नाही. आयओटी सेन्सर डेटा, ईमेल, चॅट इ. उदाहरणे आहेत.
डेटा विश्लेषण
आता आपल्याकडे असलेल्या समस्येवर तोडगा काढण्यासाठी आम्ही डेटा गोळा केला आहे, तेव्हा डेटाचे विश्लेषण करणे आवश्यक आहे. आर, पायथन, मॅट्लॅब इत्यादी सारख्या वेगवेगळ्या साधनांचा वापर करुन डेटाचे विश्लेषण करण्याच्या प्रक्रियेस (आम्ही या प्रोग्रामिंग भाषांमध्ये उपलब्ध ग्रंथालयांचा आलेख किंवा चार्ट तयार करून डेटाचे विश्लेषण करण्यासाठी वापरू शकतो) डेटा विश्लेषण म्हणतात. उदाहरणार्थ, घरांच्या किंमतीच्या अंदाजाच्या समस्येचा विचार करा. अशी कल्पना करा की मागील 10 वर्षात आमच्याकडे घरांचे दर असलेले डेटासेट आहे. हा डेटा वापरुन आम्ही येत्या वर्षात घराच्या किंमतीचा अंदाज लावू इच्छितो. आम्ही हे करण्याचा एक मार्ग म्हणजे ग्राफ बनवणे म्हणजे एक्स-अक्षावर आपण वर्ष देतो आणि वाय-अक्ष वर आम्ही घरांची किंमत देतो. जेव्हा आम्ही त्याप्रमाणे डेटा प्लॉट करतो तेव्हा आम्हाला एक नमुना दिसेल ज्यामध्ये घराच्या किंमती कालांतराने वाढत किंवा कमी होत आहेत. आणि आता हा ट्रेंड वापरुन आम्ही येत्या काही वर्षात घराच्या किंमतीत होणा possible्या संभाव्य वाढीचा अंदाज लावण्यास सक्षम आहोत
डेटा व्हिज्युअलायझेशन
डेटा व्हिज्युअलायझेशन हे एक साधन आहे जे डेटाचे ग्राफिकल प्रतिनिधित्व वापरून डेटा स्पष्ट करण्यासाठी वापरले जाते. हे डेटा विश्लेषकांना डेटामधील भिन्न नमुने आणि डेटामध्ये जाणारे आणि डेटामधील ट्रेंड समजण्यास मदत करते. तसेच डेटा विश्लेषक व्हिडीओलायझेशन तंत्राचा वापर ग्राहकांना त्याचे निष्कर्ष ग्राफ, चार्ट आणि नकाशेच्या रूपात सादर करण्यासाठी करू शकतात. डेटा व्हिज्युअलायझेशनसाठी अजगरातील काही भिन्न लायब्ररी आहेत
१)Plotly
२)Seaborn
३)Ggplot
४)Altair
५)Matplotlib
६)Bokeh
७)Folium
आम्ही व्हिज्युअलायझेशनसाठी प्रोग्रामिंग भाषा वापरत नसल्यास आम्ही खालील साधने वापरू शकतो.
१)Google charts
२)Tableau
३)Xplenty
४)Hubspot
५)Whatagraph
डेटा व्हिज्युअलायझेशन उदाहरण प्लॉटली लायब्ररीच्या सहाय्याने अजगर प्रोग्रामिंग भाषेत 01-10-2020 ते 07-10-2020 या कालावधीत ए, बी, सी, डी आणि ई या तीन मशीनच्या डेटा व्हिज्युअलायझेशनचे उदाहरण आपण पाहू.
कृत्रिम बुद्धिमत्ता
एआय - कृत्रिम बुद्धिमत्ता ही अशी बुद्धिमत्ता आहे जी मशीन्सला माणसासारखा विचार करण्यास सक्षम करते आणि मानवी हस्तक्षेपाच्या किंवा कमी किंवा कमी हस्तक्षेप असलेल्या समस्यांचे निराकरण करण्यास सक्षम करते. एआयचे प्रामुख्याने 3 प्रकार आहेत: कृत्रिम संकुचित बुद्धिमत्ता (एएनआय) आजकाल मशीन्समध्ये एरो चे सर्वात सामान्य प्रकार अरुंद एआय आहे. एएनआय मशीनना स्वयंचलित करण्याची परवानगी देते आणि मानवीय हस्तक्षेपासह, एखादे विशिष्ट कार्य किंवा लहान कार्ये स्वतःच करण्याची परवानगी देतात. त्यामध्ये भावना किंवा चेतनाची भावना नसते. त्यासाठी प्रोग्राम केलेले नसल्यास हे विविध प्रकारची कामे करू शकत नाही. उदाहरणे:
•सेल्फ ड्रायव्हिंग कार
•वाहन - पायलट
•स्पॅम फिल्टर चॅटबॉट्स
कृत्रिम जनरल इंटेलिजेंस (एजीआय)
या प्रकारचा एआय केवळ साय-फाय चित्रपटांमध्ये दिसू शकतो आणि मानवी-स्तरीय बुद्धिमत्ता प्रदर्शित करू शकतो. या प्रकारचे एआय सामान्य मानवांपेक्षा वेगळे करणे कठीण आहे आणि भावनिक बुद्धिमत्ता दर्शविण्यास सक्षम असेल.
ते मानवाप्रमाणे विचार करू शकतात आणि फक्त सिस्टमच्या आवश्यकतांपेक्षा परिस्थितीवर आधारित समस्या सोडविण्यास सक्षम असतील. दुसर्या शब्दांत, अशी परिस्थिती उद्भवली की एखाद्या समस्येचे विशिष्ट निराकरण एखाद्यासाठी हानिकारक असू शकते, अशा परिस्थितीत मशीन कदाचित दुसरे निराकरण निवडेल.
कृत्रिम सुपर इंटेलिजेंस (एएसआय)
या प्रकारची एआयची बुद्धिमत्ता पातळी असेल जी मानवांपेक्षा जास्त श्रेष्ठ असेल आणि आपल्यापेक्षा खूप वेगवान विचार करण्यास सक्षम असेल. त्यांच्याकडे अधिक समस्या सोडवण्याची कौशल्ये असतील आणि स्वत: ला अद्यतनित करतील जे केवळ एका दिवसातच सर्व गोष्टींपेक्षा अधिक हुशार असतील.
त्यांच्याकडे पटकन विकसित होण्याची आणि स्वतःची उत्कृष्ट आवृत्ती बनण्याची क्षमता असेल. या प्रकारची बुद्धिमत्ता आपल्या अस्तित्वाला धोकादायक ठरू शकते.
मशीन लर्निंग
मशीन लर्निंग ही मशीनला इनपुट स्वीकारण्यास शिकवणे आणि आकडेवारी आणि संभाव्यतेवर आधारित अल्गोरिदमच्या आधारावर गणना करणे, आउटपुटसह येणे, अपेक्षित आउटपुटच्या जवळ किंवा समान असणे होय.
आम्ही आपल्या रोजच्या आयुष्यात मशीन लर्निंगचा वापर पाहू शकतो, उदाहरणार्थ, यूट्यूब किंवा इन्स्टाग्राम जाहिरातींमधील शिफारस सिस्टम ही मशीन शिकण्यावर आधारित आहे जिथे वापरकर्त्याला सर्वात जास्त क्लिक केले जाते आणि सर्वात जास्त काय आवडते याचा डेटा मध्ये दिले जाते सिस्टम आणि सिस्टम वापरकर्त्याच्या स्वारस्याबद्दल जाणून घेते आणि वापरकर्त्यास त्यामध्ये सर्वात जास्त रस असलेल्या सामग्रीची सूचना देते.
मशीन लर्निंगचे प्रामुख्याने 3 प्रकारच्या शिक्षणात वर्गीकरण केले जाते:
1.सर्वेक्षणित शिक्षण समजा, आम्ही आमच्या मशीनला imagesपलच्या प्रतिमांचे इतर प्रतिमांच्या सेटमधून वर्गीकरण करू इच्छितो. पर्यवेक्षी शिक्षणात आम्ही सुरुवातीला एमएल-मॉडेल इनपुट प्रतिमा आणि प्रतिमेमधील फळाच्या नावानुसार लेबले प्रदान करू. एमएल-मॉडेल एक अल्गोरिदमचा एक सेट आहे जो इनपुट डेटामधून भिन्न वैशिष्ट्ये शिकतो आणि आउटपुट देतो.
मॉडेल प्रतिमेची आणि लेबलची तुलना करेल आणि विशिष्ट लेबलवर विशिष्ट प्रतिमेचा नकाशा देणारी वैशिष्ट्ये शिकेल. आणि आता जेव्हा आम्ही मॉडेलला एक नवीन प्रतिमा देतो तेव्हा ती डेटामध्ये दिसणारी वैशिष्ट्ये ओळखण्यास सक्षम असेल, आम्ही ती प्रशिक्षित केली होती आणि विशिष्ट लेबलवर प्रतिमेचा नकाशा बनवू शकतो. सामान्य पर्यवेक्षी शिकण्याच्या समस्या
वर्गीकरण: वर्गीकरण गटाचे लेबले म्हणून यापूर्वी या श्रेणींमध्ये दिले जाणारे आउटपुट. उदाहरणार्थ 0,1, मांजर, उंदीर, सफरचंद, आंबा इ.
रिग्रेशन: सतत प्रमाणात भाकित करण्यासाठी रिप्रेशनचा वापर केला जातो. उदाहरणार्थ खोलीत थेट तापमानाचा अंदाज लावणे. शेअर बाजाराच्या किंमतीचे अंदाजदेखील एक उदाहरण आहे.
२.अनसप्रव्हिज्ड लर्निंग अप्रकाशित शिक्षणामध्ये मॉडेलला कोणत्याही लेबलशिवाय इनपुट डेटा प्रदान केला जातो. मॉडेल समान वैशिष्ट्यांनुसार भिन्न गटांमध्ये डेटाचे वर्गीकरण करेल. असुरक्षित शिक्षण मुख्यतः दोन प्रकारच्या समस्यांसाठी वापरले जाते: क्लस्टरिंग: क्लस्टरिंग डेटामधील समान वैशिष्ट्ये ओळखते आणि या समानतेनुसार वर्गीकरण करते. मॉडेलमध्येच डेटामधील समान वैशिष्ट्यांनुसार इनपुट डेटाचे वर्गीकरण केले जाते. उदाहरणार्थ, त्यांच्या क्षेत्रातील कोविड -१ of च्या प्रसारावर आधारित लोकांना वेगवेगळ्या गटात क्लस्टरिंग. संघटना: उदाहरणार्थ, खरेदीदारास त्याने अलीकडेच आणलेल्या दुसर्या उत्पादनावर आधारित (मॅपिंग) विशिष्ट उत्पादनास जोडणे.
3.शक्तीकरण शिक्षण हे एखाद्या मुलाला काय योग्य व अयोग्य आहे हे शिकवण्यासारखे आहे. जर त्याने बरोबर केले तर आम्ही त्याला काही चॉकलेट, भेटवस्तू इत्यादी देऊन त्याचे कौतुक करू. जर त्याने काहीतरी चूक केली तर आम्ही त्याला अभिप्राय देऊ. म्हणून पुढच्या वेळी त्याला काही कळले असेल की फीडबॅकवर किंवा बक्षिसेवर आधारित हे चांगले की वाईट आहे हे समजून घेताना असे करण्यापूर्वी त्याला मिळाले. तर, मजबुतीकरण शिक्षण ही एक बक्षीस-आधारित प्रणाली आहे ज्यात एजंट काही कृती करून पर्यावरणाशी संवाद साधतो आणि दुभाष्यांकडून मिळालेल्या बक्षिसे (एकतर नकारात्मक किंवा सकारात्मक) पासून शिकतो. कोणताही पूर्वनिर्धारित डेटा नाही आणि देखरेख नाही. शिकण्यासाठी चाचणी-आणि-त्रुटी पद्धतीचे अनुसरण करते. हे आऊटपुट स्वतःच ओळखले पाहिजे आणि ते बरोबर की चूक हे आम्ही फक्त सांगू.
उदाहरणे: सेल्फ ड्रायव्हिंग कार जेथे वातावरण रस्ता आहे आणि दुभाषे (एरर सिग्नल जनरेटर) ड्रायव्हिंग सीटवर एक माणूस आहे. कार आपोआप घेत असलेल्या दिशेने किंवा कदाचित नियम पाळत असताना पार्किंग करत असताना कदाचित कार लेन बदलते किंवा कदाचित पार्किंग करत असताना मानवी एक दिशा पाठवते. एक स्वयंचलित मशीन जी उत्पादनांच्या वजनावर आधारित वेगवेगळ्या गटात वर्गीकृत करण्यासाठी वापरली जाते. या कामावर लक्ष ठेवणारी व्यक्ती एखादी त्रुटी सिग्नल व्युत्पन्न करेल जे मशीनने उत्पादनाचे चुकीचे वर्गीकरण केल्यास नकारात्मक आहे आणि मशीन योग्य प्रकारे करत असल्यास त्यास सकारात्मक प्रतिसाद मिळेल. या व्यतिरिक्त, अर्ध-पर्यवेक्षण नावाचा आणखी एक प्रकारचा शिक्षण आहे ज्यामध्ये काही डेटाचे लेबल लावले जाते आणि इतरांना लेबल नसलेले असतात.
4.शिक्षण ठेवा डीप लर्निंग मशीन शिकण्याचा उपसंच आहे जिथे आम्ही पर्यवेक्षी, अप्रिय पर्यवेक्षण आणि मजबुतीकरण शिकवण्याचे कार्य करण्यासाठी कृत्रिम तंत्रिका तंत्र वापरतो. कृत्रिम न्यूरल नेटवर्क (एएनएन) मानवी मेंदूतील न्यूरॉन्सद्वारे प्रेरित असतात. सखोल अभ्यासात, आम्ही न्यूरॉन्सच्या एकाधिक थरांचा वापर करतो ज्यात न्यूरॉनचा एक थर इनपुटमधून एक विशिष्ट वैशिष्ट्य शिकेल आणि आउटपुट एका फंक्शनमधून जातो, जे उपयुक्त वैशिष्ट्ये ओळखण्यासाठी आणि त्या रूपात पुढे जाण्यासाठी काही संभाव्य समीकरणे वापरतात जिथे आपल्याला आउटपुट मिळेल त्या शेवटच्या लेयरपर्यंत पोहोचेपर्यंत पुढच्या लेयरचे इनपुट आणि असेच.
न्यूरल नेटवर्क वापरण्याचे फायदे
न्यूरल नेटवर्कमध्ये बरीच थर असू शकतात, प्रत्येकात न्यूरॉन्सची संख्या असते. म्हणूनच जरी एक न्यूरॉन चांगले प्रदर्शन करीत नाही तर मॉडेल त्यास ओळखेल आणि कार्यक्षमतेवर परिणाम करणार नाही. तसेच डेटा (इनपुट डेटा आणि डेटामधून ओळखली जाणारी वैशिष्ट्ये) संख्यांच्या स्वरूपात न्यूरॉन्समध्येच संग्रहित केला जातो. म्हणून आम्हाला हा डेटा संचयित करण्यासाठी स्वतंत्र डेटाबेस वापरण्याची आवश्यकता नाही. तसेच न्यूरल नेटवर्क, आम्हाला वेगवेगळ्या कार्यांसाठी कोणत्या मार्गाने करायचे आहे यासाठी हाताळले जाऊ शकतात. हे एकाधिक समस्यांचे निराकरण करण्यासाठी वापरले जाऊ शकते, जसे मुळात आपला मेंदू न्युरोन्सचे वेगवेगळे सेट फायर करून बरेच काही करू शकतो.
डीप लर्निंगचा सर्वात जास्त वापर केला जाणारा दोन मुख्य भाग आहेत:
संगणक दृष्टी
संगणक दृष्टी कृत्रिम बुद्धिमत्तेचे असे एक क्षेत्र आहे जे दृश्य जगाबद्दल जाणून घेण्यासाठी सखोल शिक्षणाचा वापर करते. आम्हाला माहित आहे की प्रतिमा पिक्सेल मूल्यांचा संग्रह आहे. संगणकात आम्ही ही व्हॅल्यूज मॅट्रिक्स मधील संख्या म्हणून दर्शवितो. या संख्या मज्जातंतू नेटवर्क मध्ये दिले आहेत जे नंतर प्रतिमेची वैशिष्ट्ये शिकतील आणि एकतर प्रतिमेचे वर्गीकरण करण्यात किंवा प्रतिमेत एखादी वस्तू शोधण्यात सक्षम असतील.
कॉन्व्होल्यूशनल न्यूरल नेटवर्क
•(सीएनएन) नावाचा एक प्रकारचा न्यूरल नेटवर्क यासाठी सामान्यतः
•वापरला जातो. संगणकाच्या दृष्टीतील काही सामान्य अनुप्रयोगः
•उत्पादन मध्ये दोष शोधणे सेल्फ ड्रायव्हिंग कार घुसखोर ओळख.
नैसर्गिक भाषा प्रक्रिया एनएलपी कृत्रिम बुद्धिमत्तेचे एक क्षेत्र आहे जे तंत्रिका नेटवर्कच्या सामर्थ्याने मानवी भाषा उपयुक्त मार्गाने समजण्यासाठी वापरते. एनएलपीचा वापर नैसर्गिक भाषा वाचण्यासाठी, समजण्यासाठी आणि तयार करण्यासाठी केला जाऊ शकतो. एनएलपीचे काही अनुप्रयोगः
गूगल भाषांतर एमएस वर्ड,
व्याकरण - व्याकरणाच्या तपासणीसाठी किंवा शब्दलेखन तपासणीसाठी सिरी,
अलेक्सा - वैयक्तिक आवाज सहाय्यक
धन्यवाद
0 टिप्पण्या