2017 के लिए गार्टनर की नई रिपोर्ट "मैजिक क्वाड्रेंट फॉर डेटा साइंस प्लेटफॉर्म्स" (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- द्वारा स्टेटिस्टिका प्लेटफॉर्म को शीर्ष पांच डेटा साइंस प्लेटफॉर्म में स्थान दिया गया है। प्लेटफ़ॉर्म), जिसे पहले 2016 में "उन्नत विश्लेषिकी प्लेटफ़ॉर्म" कहा जाता था। स्टेटिस्टिका द्वारा प्रदान की जाने वाली सुविधाओं की विस्तृत श्रृंखला और ग्राफिकल यूजर इंटरफेस (जीयूआई) इसे सबसे अधिक उपयोग किए जाने वाले डेटा विज्ञान उपकरणों में से एक बनाते हैं।
सांख्यिकी डेटा फ़ाइलों को स्प्रेडशीट कहा जाता है , जिसमें डेटा की पंक्तियाँ और स्तंभ हैं। डेटा की पंक्तियों को मामले कहा जाता है और डेटा के लिए कॉलम हेडर को चर कहा जाता है . डेटा तैयार करने में एक आम समस्या यह है कि अलग-अलग टीम के सदस्य अलग-अलग डेटा सेट विकसित या एकत्रित कर रहे हैं और स्प्रेडशीट का उपयोग करने से पहले डेटा सेट को मर्ज करना होगा। डेटा एकाधिक डेटा फ़ाइलों में हो सकता है। हम चर्चा करेंगे कि कैसे दो अलग-अलग डेटा फ़ाइलों में डेटा को स्टेटिस्टिका के साथ एकल डेटा फ़ाइल में मर्ज किया जा सकता है।
Statistica दो डेटा फ़ाइलों के लिए विभिन्न प्रकार के मर्ज मोड का समर्थन करता है, और ये हैं:
- सम्मिलित करें: जब दो डेटा फ़ाइलें मिलती हैं, तो एक डेटा फ़ाइल ली जाती है और दूसरी डेटा फ़ाइल के दाईं ओर जोड़ी जाती है (या जोड़ दी जाती है)।
- कार्टेशियन: दो डेटा फ़ाइलों का एक क्रॉस उत्पाद बनाता है।
- केसनामों का मिलान करें: एक फ़ाइल के केस (पंक्तियों) को केस के नामों से मिलान करके दूसरी फ़ाइलों के केस के साथ मिला देता है।
- वेरिएबल का मिलान करें: चर नामों का मिलान करके एक डेटा फ़ाइल की पंक्तियों को दूसरी डेटा फ़ाइल की पंक्तियों के साथ मिला देता है।
हम Concatenate मर्ज पर चर्चा करके शुरू करेंगे। इस ट्यूटोरियल में निम्नलिखित भाग हैं:
- पर्यावरण की स्थापना
- डेटा फ़ाइलें संयोजित करना
- निष्कर्ष
पर्यावरण की स्थापना
स्टेटिस्टिका प्लेटफॉर्म को डाउनलोड और इंस्टॉल करें। Statistica डेटा फ़ाइलों को स्प्रेडशीट कहा जाता है (.sta . के साथ संग्रहीत) प्रत्यय)। हम इस ट्यूटोरियल में कुछ स्टेटिस्टिका डेटा फाइल्स बनाएंगे। फ़ाइल>नई . के साथ एक डेटा फ़ाइल बनाई जाती है . नया दस्तावेज़ बनाएं . में , स्प्रेडशीट . चुनें , जैसा चित्र 1 में दिखाया गया है।
चित्र 1: बनाने के लिए नई स्प्रेडशीट का चयन करना
डेटा फ़ाइल सहेजने के लिए, फ़ाइल>इस रूप में सहेजें select चुनें , जैसा कि चित्र 2 में दिखाया गया है।
चित्र 2: फ़ाइल>इस रूप में सहेजें
डेटा फ़ाइलें संयोजित करना
सबसे पहले, दो डेटा फ़ाइलें बनाएं जिन्हें मर्ज किया जाना है। मर्ज की जाने वाली डेटा फ़ाइलों में आम तौर पर समान पंक्तियों और समान या अलग-अलग स्तंभों की संख्या होती है। चूंकि डेटा को संयोजित किया जाना है, इसलिए कॉलम के नाम आम तौर पर भिन्न होंगे। इनमें से कोई भी आवश्यकता नहीं है; दो डेटा फ़ाइलों में पंक्तियों की अलग-अलग संख्या हो सकती है और हम चर्चा करेंगे कि डेटा फ़ाइलों के ऐसे सेट को कैसे मर्ज किया जाए। इसका उद्देश्य डेटा को एक डेटा फ़ाइल में दूसरे के साथ मर्ज करना है ताकि 1 डेटा फ़ाइल के दाईं ओर 2 डेटा फ़ाइल जोड़ी जाए। उदाहरण के तौर पर, एक डेटा फ़ाइल बनाएं (जिसे wlslog1.sta . कहा जाता है) ) कॉलम हेडर के साथ (चर ) टाइमस्टैम्प , श्रेणी , और टाइप करें और निम्न डेटा (उदाहरण लॉग डेटा)।
4-8-2014-7:06:16,Notice,WebLogicServer 4-8-2014-7:06:17,Notice,WebLogicServer 4-8-2014-7:06:18,Notice,WebLogicServer 4-8-2014-7:06:20,Notice,WebLogicServer 4-8-2014-7:06:21,Notice,WebLogicServer 4-8-2014-7:06:22,Notice,WebLogicServer
wlslog1.sta डेटा फ़ाइल चित्र 3 में स्टेटिस्टिका में दिखाई गई है।
चित्र 3: डेटा फ़ाइल wlslog1.sta
एक और डेटा फ़ाइल बनाएं (wlslog2.sta ) कॉलम हेडर के साथ servername , कोड , और संदेश , और निम्न डेटा जोड़ें (उदाहरण लॉग डेटा भी)।
AdminServer,BEA-000365,STANDBY AdminServer,BEA-000365,RESUMING AdminServer,BEA-000365,ADMIN AdminServer,BEA-000331,STARTING AdminServer,BEA-000365,STARTED AdminServer,BEA-000360,RUNNING
wlslog2.sta फ़ाइल को चित्र 4 में दिखाया गया है। दो डेटा फ़ाइलों को मर्ज करने के लिए, wlslog1.sta और wlslog2.sta , डेटा . क्लिक करें टैब करें और मर्ज करें . चुनें , जैसा चित्र 4 में दिखाया गया है।
चित्र 4: डेटा फ़ाइल wlslog2.sta
एक मर्ज विकल्प संवाद प्रदर्शित होता है, जैसा चित्र 5 में दिखाया गया है। चर टैब डिफ़ॉल्ट रूप से चुना जाता है। मोड Select चुनें सम्मिलित करें . के रूप में . फ़ाइल 1 . क्लिक करें मर्ज करने के लिए 1 फ़ाइल का चयन करने के लिए बटन।
चित्र 5: मर्ज विकल्प
wlslog1.sta . चुनें स्प्रेडशीट चुनें . में फ़ाइल करें संवाद (चित्र 6 देखें)। ठीकक्लिक करें . wlslog1.sta फ़ाइल फ़ाइल 1 . में जुड़ जाती है खेत। इसी तरह, 2 फ़ाइल wlslog2.sta . का चयन करें ।
चित्र 6: मर्ज करने के लिए स्प्रेडशीट का चयन करना
किसी अन्य कॉन्फ़िगरेशन की आवश्यकता नहीं है। डिफ़ॉल्ट रूप से, एक आउटपुट स्प्रेडशीट जेनरेट हो जाती है और इसे विकल्प . के साथ कॉन्फ़िगर किया जा सकता है टैब, जैसा कि चित्र 7 में दिखाया गया है। आउटपुट स्प्रेडशीट के लिए डिफ़ॉल्ट सेटिंग्स रखें।
चित्र 7: विकल्प टैब
मर्ज की जाने वाली दो फ़ाइलें फ़ाइल 1 . में जुड़ जाती हैं और फ़ाइल 2 फ़ील्ड, जैसा कि चित्र 8 में दिखाया गया है। बेमेल मामलों . के लिए डिफ़ॉल्ट सेटिंग डेटा फ़ाइलों को अनुपलब्ध मानों से भर देता है, जिसका अर्थ है कि मर्ज की गई पंक्ति के अनुभाग के लिए खाली डेटा संग्रहीत किया जाता है (मामला ) जो एक डेटा फ़ाइल से दूसरी डेटा फ़ाइल से मेल नहीं खाता। ठीकक्लिक करें ।
चित्र 8: मर्ज करने के लिए डेटा फ़ाइलें
जैसा कि चित्र 9 में दिखाया गया है, दो डेटा फ़ाइलें संयोजित हो जाती हैं। परिणामी स्प्रेडशीट में 6 कॉलम और 6 पंक्तियाँ होती हैं।
चित्र 9: मर्ज के बाद परिणामी स्प्रेडशीट
यदि एक स्प्रैडशीट में दूसरे की तुलना में अधिक पंक्तियाँ हों, तो दो स्प्रैडशीट समान रूप से संयोजित हो जाएँगी। उदाहरण के तौर पर, 1 स्प्रेडशीट में एक अतिरिक्त पंक्ति जोड़ें (wlslog1.sta ) 7 पंक्तियाँ बनाने के लिए, जैसा कि चित्र 10 में दिखाया गया है।
चित्र 10: wlslog1.sta
जब 2 स्प्रैडशीट (wlslog2.sta .) के साथ संयोजित किया जाता है ), परिणामी स्प्रैडशीट में 2 स्प्रैडशीट के स्तंभों के लिए अनुपलब्ध डेटा के साथ एक अतिरिक्त पंक्ति होती है (चित्र 11 देखें)।
चित्र 11: मर्ज की गई स्प्रेडशीट
निष्कर्ष
इस ट्यूटोरियल में, हमने डेटा साइंस के लिए स्टेटिस्टिका प्लेटफॉर्म में मर्जिंग डेटा फाइल्स (स्प्रेडशीट्स भी कहा जाता है) की शुरुआत की। हमने मर्ज मोड में से एक पर चर्चा की:मर्ज को जोड़ना। बाद के ट्यूटोरियल में, हम केसनामों का मिलान करके और वेरिएबल का मिलान करके विलय पर चर्चा करेंगे।