Database
 sql >> डेटाबेस >  >> RDS >> Database

डेटा फ़ाइलों को स्टेटिस्टिका के साथ मर्ज करना, भाग 1

2017 के लिए गार्टनर की नई रिपोर्ट "मैजिक क्वाड्रेंट फॉर डेटा साइंस प्लेटफॉर्म्स" (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- द्वारा स्टेटिस्टिका प्लेटफॉर्म को शीर्ष पांच डेटा साइंस प्लेटफॉर्म में स्थान दिया गया है। प्लेटफ़ॉर्म), जिसे पहले 2016 में "उन्नत विश्लेषिकी प्लेटफ़ॉर्म" कहा जाता था। स्टेटिस्टिका द्वारा प्रदान की जाने वाली सुविधाओं की विस्तृत श्रृंखला और ग्राफिकल यूजर इंटरफेस (जीयूआई) इसे सबसे अधिक उपयोग किए जाने वाले डेटा विज्ञान उपकरणों में से एक बनाते हैं।

सांख्यिकी डेटा फ़ाइलों को स्प्रेडशीट कहा जाता है , जिसमें डेटा की पंक्तियाँ और स्तंभ हैं। डेटा की पंक्तियों को मामले कहा जाता है और डेटा के लिए कॉलम हेडर को चर कहा जाता है . डेटा तैयार करने में एक आम समस्या यह है कि अलग-अलग टीम के सदस्य अलग-अलग डेटा सेट विकसित या एकत्रित कर रहे हैं और स्प्रेडशीट का उपयोग करने से पहले डेटा सेट को मर्ज करना होगा। डेटा एकाधिक डेटा फ़ाइलों में हो सकता है। हम चर्चा करेंगे कि कैसे दो अलग-अलग डेटा फ़ाइलों में डेटा को स्टेटिस्टिका के साथ एकल डेटा फ़ाइल में मर्ज किया जा सकता है।

Statistica दो डेटा फ़ाइलों के लिए विभिन्न प्रकार के मर्ज मोड का समर्थन करता है, और ये हैं:

  • सम्मिलित करें: जब दो डेटा फ़ाइलें मिलती हैं, तो एक डेटा फ़ाइल ली जाती है और दूसरी डेटा फ़ाइल के दाईं ओर जोड़ी जाती है (या जोड़ दी जाती है)।
  • कार्टेशियन: दो डेटा फ़ाइलों का एक क्रॉस उत्पाद बनाता है।
  • केसनामों का मिलान करें: एक फ़ाइल के केस (पंक्तियों) को केस के नामों से मिलान करके दूसरी फ़ाइलों के केस के साथ मिला देता है।
  • वेरिएबल का मिलान करें: चर नामों का मिलान करके एक डेटा फ़ाइल की पंक्तियों को दूसरी डेटा फ़ाइल की पंक्तियों के साथ मिला देता है।

हम Concatenate मर्ज पर चर्चा करके शुरू करेंगे। इस ट्यूटोरियल में निम्नलिखित भाग हैं:

  • पर्यावरण की स्थापना
  • डेटा फ़ाइलें संयोजित करना
  • निष्कर्ष

पर्यावरण की स्थापना

स्टेटिस्टिका प्लेटफॉर्म को डाउनलोड और इंस्टॉल करें। Statistica डेटा फ़ाइलों को स्प्रेडशीट कहा जाता है (.sta . के साथ संग्रहीत) प्रत्यय)। हम इस ट्यूटोरियल में कुछ स्टेटिस्टिका डेटा फाइल्स बनाएंगे। फ़ाइल>नई . के साथ एक डेटा फ़ाइल बनाई जाती है . नया दस्तावेज़ बनाएं . में , स्प्रेडशीट . चुनें , जैसा चित्र 1 में दिखाया गया है।


चित्र 1: बनाने के लिए नई स्प्रेडशीट का चयन करना

डेटा फ़ाइल सहेजने के लिए, फ़ाइल>इस रूप में सहेजें select चुनें , जैसा कि चित्र 2 में दिखाया गया है।


चित्र 2: फ़ाइल>इस रूप में सहेजें

डेटा फ़ाइलें संयोजित करना

सबसे पहले, दो डेटा फ़ाइलें बनाएं जिन्हें मर्ज किया जाना है। मर्ज की जाने वाली डेटा फ़ाइलों में आम तौर पर समान पंक्तियों और समान या अलग-अलग स्तंभों की संख्या होती है। चूंकि डेटा को संयोजित किया जाना है, इसलिए कॉलम के नाम आम तौर पर भिन्न होंगे। इनमें से कोई भी आवश्यकता नहीं है; दो डेटा फ़ाइलों में पंक्तियों की अलग-अलग संख्या हो सकती है और हम चर्चा करेंगे कि डेटा फ़ाइलों के ऐसे सेट को कैसे मर्ज किया जाए। इसका उद्देश्य डेटा को एक डेटा फ़ाइल में दूसरे के साथ मर्ज करना है ताकि 1 डेटा फ़ाइल के दाईं ओर 2 डेटा फ़ाइल जोड़ी जाए। उदाहरण के तौर पर, एक डेटा फ़ाइल बनाएं (जिसे wlslog1.sta . कहा जाता है) ) कॉलम हेडर के साथ (चर ) टाइमस्टैम्प , श्रेणी , और टाइप करें और निम्न डेटा (उदाहरण लॉग डेटा)।

4-8-2014-7:06:16,Notice,WebLogicServer
4-8-2014-7:06:17,Notice,WebLogicServer
4-8-2014-7:06:18,Notice,WebLogicServer
4-8-2014-7:06:20,Notice,WebLogicServer
4-8-2014-7:06:21,Notice,WebLogicServer
4-8-2014-7:06:22,Notice,WebLogicServer

wlslog1.sta डेटा फ़ाइल चित्र 3 में स्टेटिस्टिका में दिखाई गई है।


चित्र 3: डेटा फ़ाइल wlslog1.sta

एक और डेटा फ़ाइल बनाएं (wlslog2.sta ) कॉलम हेडर के साथ servername , कोड , और संदेश , और निम्न डेटा जोड़ें (उदाहरण लॉग डेटा भी)।

AdminServer,BEA-000365,STANDBY
AdminServer,BEA-000365,RESUMING
AdminServer,BEA-000365,ADMIN
AdminServer,BEA-000331,STARTING
AdminServer,BEA-000365,STARTED
AdminServer,BEA-000360,RUNNING

wlslog2.sta फ़ाइल को चित्र 4 में दिखाया गया है। दो डेटा फ़ाइलों को मर्ज करने के लिए, wlslog1.sta और wlslog2.sta , डेटा . क्लिक करें टैब करें और मर्ज करें . चुनें , जैसा चित्र 4 में दिखाया गया है।


चित्र 4: डेटा फ़ाइल wlslog2.sta

एक मर्ज विकल्प संवाद प्रदर्शित होता है, जैसा चित्र 5 में दिखाया गया है। चर टैब डिफ़ॉल्ट रूप से चुना जाता है। मोड Select चुनें सम्मिलित करें . के रूप में . फ़ाइल 1 . क्लिक करें मर्ज करने के लिए 1 फ़ाइल का चयन करने के लिए बटन।


चित्र 5: मर्ज विकल्प

wlslog1.sta . चुनें स्प्रेडशीट चुनें . में फ़ाइल करें संवाद (चित्र 6 देखें)। ठीकक्लिक करें . wlslog1.sta फ़ाइल फ़ाइल 1 . में जुड़ जाती है खेत। इसी तरह, 2 फ़ाइल wlslog2.sta . का चयन करें ।


चित्र 6: मर्ज करने के लिए स्प्रेडशीट का चयन करना

किसी अन्य कॉन्फ़िगरेशन की आवश्यकता नहीं है। डिफ़ॉल्ट रूप से, एक आउटपुट स्प्रेडशीट जेनरेट हो जाती है और इसे विकल्प . के साथ कॉन्फ़िगर किया जा सकता है टैब, जैसा कि चित्र 7 में दिखाया गया है। आउटपुट स्प्रेडशीट के लिए डिफ़ॉल्ट सेटिंग्स रखें।


चित्र 7: विकल्प टैब

मर्ज की जाने वाली दो फ़ाइलें फ़ाइल 1 . में जुड़ जाती हैं और फ़ाइल 2 फ़ील्ड, जैसा कि चित्र 8 में दिखाया गया है। बेमेल मामलों . के लिए डिफ़ॉल्ट सेटिंग डेटा फ़ाइलों को अनुपलब्ध मानों से भर देता है, जिसका अर्थ है कि मर्ज की गई पंक्ति के अनुभाग के लिए खाली डेटा संग्रहीत किया जाता है (मामला ) जो एक डेटा फ़ाइल से दूसरी डेटा फ़ाइल से मेल नहीं खाता। ठीकक्लिक करें ।


चित्र 8: मर्ज करने के लिए डेटा फ़ाइलें

जैसा कि चित्र 9 में दिखाया गया है, दो डेटा फ़ाइलें संयोजित हो जाती हैं। परिणामी स्प्रेडशीट में 6 कॉलम और 6 पंक्तियाँ होती हैं।


चित्र 9: मर्ज के बाद परिणामी स्प्रेडशीट

यदि एक स्प्रैडशीट में दूसरे की तुलना में अधिक पंक्तियाँ हों, तो दो स्प्रैडशीट समान रूप से संयोजित हो जाएँगी। उदाहरण के तौर पर, 1 स्प्रेडशीट में एक अतिरिक्त पंक्ति जोड़ें (wlslog1.sta ) 7 पंक्तियाँ बनाने के लिए, जैसा कि चित्र 10 में दिखाया गया है।


चित्र 10: wlslog1.sta

. में अतिरिक्त पंक्ति

जब 2 स्प्रैडशीट (wlslog2.sta .) के साथ संयोजित किया जाता है ), परिणामी स्प्रैडशीट में 2 स्प्रैडशीट के स्तंभों के लिए अनुपलब्ध डेटा के साथ एक अतिरिक्त पंक्ति होती है (चित्र 11 देखें)।


चित्र 11: मर्ज की गई स्प्रेडशीट

निष्कर्ष

इस ट्यूटोरियल में, हमने डेटा साइंस के लिए स्टेटिस्टिका प्लेटफॉर्म में मर्जिंग डेटा फाइल्स (स्प्रेडशीट्स भी कहा जाता है) की शुरुआत की। हमने मर्ज मोड में से एक पर चर्चा की:मर्ज को जोड़ना। बाद के ट्यूटोरियल में, हम केसनामों का मिलान करके और वेरिएबल का मिलान करके विलय पर चर्चा करेंगे।


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. SQL में स्कीमा क्या है और इसे कैसे बनाया जाता है?

  2. AnswerHub से WordPress पर माइग्रेट करना :A टेल ऑफ़ 10 टेक्नोलॉजीज

  3. टी-एसक्यूएल मंगलवार #67 :नया बैकअप और विस्तारित घटनाओं को पुनर्स्थापित करें

  4. टी-एसक्यूएल बग, नुकसान, और सर्वोत्तम अभ्यास - नियतत्ववाद

  5. विशिष्ट मूल्यों को शीघ्रता से ढूँढना