Database
 sql >> डेटाबेस >  >> RDS >> Database

हडूप के साथ कैसेंड्रा सीखें?

“कंपनियां महसूस कर रही हैं कि वे निर्णय लेने में सुधार लाने और प्रतिस्पर्धा में बढ़त हासिल करने के लिए मूल्यवान व्यावसायिक खुफिया जानकारी हासिल कर सकती हैं। Hadoop और Cassandra जैसे उपकरण यह सब संभव बना रहे हैं और इसके कारण, सभी स्तरों पर NoSQL कौशल अत्यधिक मांग में हैं। - TechRepublic पर विश्लेषक

फेसबुक पर एक इन-हाउस प्रोजेक्ट के रूप में विकसित किया गया है ताकि उनकी इनबॉक्स खोज सुविधा, कैसंड्रा को सशक्त बनाया जा सके। एक ओपन सोर्स डिस्ट्रिब्यूटेड डेटाबेस मैनेजमेंट सिस्टम है . इसे एक ओपन सोर्स प्रोजेक्ट . के रूप में जारी किया गया था 2008 में Google कोड पर और बाद में एक शीर्ष-स्तरीय प्रोजेक्ट बन गया अपाचे सॉफ्टवेयर फाउंडेशन . पर 2010 से।

कैसेंड्रा अगली बड़ी चीज है:

  • Apache Cassandra को डेटा की भारी मात्रा को संभालने के लिए डिज़ाइन किया गया है (वेग, वॉल्यूम और विविधता के संदर्भ में) कई कमोडिटी सर्वरों में उच्च उपलब्धता का आश्वासन देते हैं और कोई एसपीओएफ (विफलता का एकल बिंदु) प्रदान नहीं करते हैं।
  • कैसेंड्रा कई डेटा केंद्रों में फैले समूहों के लिए शक्तिशाली समर्थन भी प्रदान करता है। पारंपरिक आर्किटेक्चर की तरह "मास्टर-स्लेव स्ट्रक्चर" की अनुपस्थिति सिस्टम पर शून्य प्रभाव की अनुमति देती है यदि कोई विशेष नोड नीचे चला जाता है।
  • नोएसक्यूएल सिस्टम पर अध्ययन कर रहे टोरंटो विश्वविद्यालय के शोधकर्ताओं का कहना है कि प्रति नोड स्केलेबिलिटी और अधिकतम थ्रूपुट के संदर्भ में , कैसेंड्रा एक स्पष्ट विजेता के रूप में उभरता है। NoSQL DBMS का मुख्य फोकस स्केलेबिलिटी सुनिश्चित करना है। , प्रदर्शन और उच्च उपलब्धता। अधिकांश NoSQL DBMS की तरह, Cassandra संरचित और असंरचित डेटा दोनों को संभाल सकता है और उपरोक्त मापदंडों पर काफी अच्छा प्रदर्शन करता है।
  • कैसंड्रा रीयल-टाइम डेटास्टोर दोनों के रूप में काम कर सकता है (“रिकॉर्ड की प्रणाली”) ऑनलाइन/लेन-देन संबंधी अनुप्रयोगों के लिए और पढ़ने के लिए गहन डेटाबेस . के रूप में बिजनेस इंटेलिजेंस सिस्टम के लिए। अधिक जानकारी के लिए कैसेंड्रा द्वारा प्रदान किए जाने वाले विभिन्न लाभों पर हमारे ब्लॉग पोस्ट को पढ़ें।

कैसेंड्रा के साथ Hadoop का उपयोग क्यों करें?

आसान शब्दों में, पाने के लिए:

  • एकीकृत कार्यभार
  • उपलब्धता
  • सरल परिनियोजन

जब Hadoop की बात आती है, तो व्यवसाय Hadoop की अंतर्निहित भंडारण संरचना में रुचि नहीं रखते हैं, लेकिन बड़ी मात्रा में डेटा के विश्लेषण और प्रसंस्करण के लिए इसकी लागत प्रभावी वितरण विधियां हैं। MapReduce, Hive, Pig, Mahout, और अन्य कार्यों के आउटपुट से निर्णय लेने में सक्षम होना इन संगठनों के लिए सबसे अधिक मायने रखता है।

याद रखने योग्य मुख्य बिंदु:

  • Hadoop डिस्ट्रिब्यूटेड फाइल सिस्टम (HDFS) Hadoop पारिस्थितिकी तंत्र के भीतर निहित कई अलग-अलग घटकों और परियोजनाओं में से एक है। अपाचे Hadoop प्रोजेक्ट HDFS को Hadoop अनुप्रयोगों द्वारा उपयोग किए जाने वाले प्राथमिक स्टोरेज सिस्टम के रूप में परिभाषित करता है .HDFS बड़े पैमाने पर वितरित असंरचित डेटा सेट को स्टोर कर सकता है। डेटा सीधे एचडीएफएस में संग्रहीत किया जा सकता है, या इसे एचबीएएस में अर्ध-संरचित प्रारूप में संग्रहीत किया जा सकता है, जो तेजी से रिकॉर्ड-स्तरीय डेटा एक्सेस की अनुमति देता है और Google के बिगटेबल सिस्टम के बाद तैयार किया जाता है। दूसरी ओर कैसेंड्रा एक गैर- रिलेशनल सिस्टम जो BigTable डेटा मॉडल का उपयोग करता है , लेकिन डेटा वितरण और क्लस्टरिंग के लिए Amazon की Dynamo योजना का उपयोग करता है।
  • Hadoop कई बेहतरीन काम करता है, इसकी मुख्य MapReduce क्षमताएं बहुत मजबूत हैं। उद्योग के विशेषज्ञ हाइव और उसके एसक्यूएल जैसे डिजाइन को पसंद करते हैं। हालाँकि HDFS फ़ाइल सिस्टम स्थापित करने के लिए अत्यंत जटिल है, इसमें विफलता के एकल बिंदु हैं, और - प्रमुख व्यवसायों की प्रतिक्रिया के अनुसार वे जो करना चाहते हैं वह करने के लिए तैयार नहीं हैं . दूसरी ओर कैसेंड्रा Hadoop स्टैक के निचले स्तर की सभी क्षमताएं प्रदान करता है। उसी समय कैसंड्रा भी उसी बुनियादी ढांचे में कम-विलंबता रीयल-टाइम एप्लिकेशन क्षमताएं प्रदान करता है।

कैसेंड्रा और Hadoop एक साथ कैसे काम कर सकते हैं?

कई विक्रेता HDFS के विकल्प की पेशकश कर रहे हैं। GigaOM नामक एक संगठन द्वारा हाल ही में एक पेपर एक उच्च-स्तरीय अवलोकन प्रदान करता है कि कैसे HDFS को बदलने के लिए Apache Cassandra File System का उपयोग किया जा सकता है। विकास के दृष्टिकोण से आवश्यक न्यूनतम प्रोग्रामिंग परिवर्तन, और इस प्रक्रिया में कितने लाभ प्राप्त किए जा सकते हैं। डेटास्टैक्स , कैसेंड्रा के वितरण के लिए एक प्रमुख वाणिज्यिक प्रदाता ने कैसेंड्रा को हडूप के साथ जोड़ा है और इसे ब्रिस्क नाम दिया है। ब्रिस्क के साथ, एचडीएफएस को कैसंड्रा फाइल सिस्टम द्वारा बदल दिया गया है। एचडीएफएस अवधारणाओं के बारे में अधिक जानें। यह ऑनलाइन बिग डेटा कोर्स देखें , जिसे शीर्ष औद्योगिक कामकाजी विशेषज्ञों द्वारा बनाया गया था।

कैसेंड्रा का लाभ - Hadoop संयोजन:

  • कोई भी उसी क्लस्टर पर कैसेंड्रा को Hadoop के साथ लागू कर सकता है। इसका मतलब है कि आपके पास दोनों दुनिया के सर्वश्रेष्ठ हो सकते हैं।
  • टीटाइम-आधारित और रीयल-टाइम कैसेंड्रा अनुप्रयोगों . के अंतर्गत चल रहा है (रियल-टाइम कैसंड्रा की ताकत है) जबकि बैच-आधारित एनालिटिक्स और प्रश्न जिसे टाइमस्टैम्प की आवश्यकता नहीं है, Hadoop पर चल सकता है। इस तरह के पारिस्थितिकी तंत्र में, एचडीएफएस को कैसेंड्रा द्वारा प्रतिस्थापित किया जाता है और यह डेवलपर के लिए अदृश्य है। कैसंड्रा और हडोप वातावरण के बीच नोड्स गतिशील रूप से पुन:असाइन कर सकते हैं जैसा उपयुक्त है।
  • कैसंड्रा फाइल सिस्टम विफलता के एकल बिंदुओं को हटा देता है जो एचडीएफएस से जुड़े हैं, अर्थात् नामनोड और जॉब ट्रैकर विफलता के बिंदु जो एचडीएफएस से जुड़े हैं।

इसलिए विचार कैसंड्रा को संयोजित करने का है जो खुद को उच्च-मात्रा वाले रीयल-टाइम ट्रांजैक्शन प्रोसेसिंग में अग्रणी बनाता है , Hadoop के साथ जो अधिक बैच-उन्मुख विश्लेषणात्मक समाधानों में उत्कृष्टता प्राप्त करता है

कैसंड्रा एंड द बिगीज:

उद्योग क्षेत्र में कई संगठन विभिन्न व्यावसायिक उद्देश्यों को प्राप्त करने के लिए Cassandra को अपना रहे हैं। कुछ प्रमुख हैं:

  • नेटफ्लिक्स - कैसेंड्रा को अपनी स्ट्रीमिंग सेवाओं के लिए बैक-एंड डेटाबेस के रूप में उपयोग करता है।
  • सिस्को का WebEx - उपयोगकर्ता फ़ीड और गतिविधि को निकट वास्तविक समय में संग्रहीत करने के लिए कैसेंड्रा का उपयोग करता है।
  • साउंडक्लाउड - अपने उपयोगकर्ताओं के डैशबोर्ड को स्टोर करने के लिए कैसेंड्रा का उपयोग करता है।
  • आईबीएम - कैसेंड्रा पर आधारित एक स्केलेबल ईमेल सिस्टम बनाने में शोध किया है

नौकरी शीर्षक जिसमें Hadoop और Cassandra कौशल शामिल हैं:

सिम्पलीहायर द्वारा किए गए अध्ययन से पता चलता है कि विशेष रूप से पिछले कुछ वर्षों में उद्योग में इसकी उच्च गोद लेने की दर के कारण कैसंड्रा की नौकरियां उच्च मांग में हैं। और भविष्य बहुत आशाजनक लग रहा है।

आइए कुछ नौकरी के शीर्षकों पर नजर डालते हैं जिनमें Hadoop-Cassandra कौशल और उनका वेतन शामिल है, जिसका उल्लेख Fact.com में किया गया है:

  • डेटा आर्किटेक्ट: यह स्थिति $ 107,000 के औसत वेतन का शुद्ध करती है। डेटा आर्किटेक्ट्स को डेटा मॉडल बनाने, डेटा वेयरहाउसिंग, डेटा का विश्लेषण करने और डेटा माइग्रेशन में कुछ अनुभव होना आवश्यक है
  • डेटा वैज्ञानिक: वे डेटा एकत्र करते हैं, उसका विश्लेषण करते हैं, डेटा को नेत्रहीन रूप से प्रस्तुत करते हैं, और डेटा का उपयोग भविष्यवाणी/पूर्वानुमान बनाने के लिए करते हैं। एक डेटा वैज्ञानिक का औसत वेतन $104,000
  • . है
  • सिस्टम इंजीनियर: सिस्टम इंजीनियरों का औसत वेतन $89,000 है।
  • डीबीए: DBA का औसत $100,000 से अधिक होता है।
  • सॉफ़्टवेयर ऐप्लिकेशन डेवलपर: सॉफ़्टवेयर डेवलपर औसतन $107,000 और एप्लिकेशन डेवलपर $93,000 का औसत वेतन कमाते हैं। इन कौशल वाले लोगों को पर्याप्त फ्रीलांस काम मिल सकता है या यदि उनमें उद्यमशीलता की भावना है तो वे अपना स्टार्टअप शुरू कर सकते हैं।

संबंधित पोस्ट:

सही NoSQL डेटाबेस का चयन करना।

Windows पर स्थापित कैसेंड्रा का CQLSH कैसे खोलें?


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. ऑप्टिमाइज़ेशन थ्रेशोल्ड - डेटा को समूहीकृत और एकत्र करना, भाग 3

  2. SQL में साल दर साल ग्रुप कैसे करें

  3. मूवी थियेटर आरक्षण प्रणाली के लिए डेटाबेस मॉडल कैसे डिज़ाइन करें

  4. टी-एसक्यूएल मंगलवार #64 :एक ट्रिगर या कई?

  5. पायथन:ध्वनि द्वारा डेटा क्वेरी करना