ग्रीनप्लम डेटाबेस क्या है? बिग डेटा डेटाबेस का परिचय

Greenplum Database एक व्यापक समानांतर प्रोसेसिंग (MPP) SQL डेटाबेस है जो PostgreSQL पर निर्मित और आधारित है। यह एक एकल समस्या के बिना एक बहु-पेटाबाइट स्तर डेटा वर्कलोड की ओर बढ़ सकता है, और यह शक्तिशाली सर्वरों के एक समूह तक पहुंच की अनुमति देता है जो एक एकल SQL इंटरफ़ेस के भीतर एक साथ काम करेगा जहां आप सभी डेटा देख सकते हैं। इस ब्लॉग पोस्ट में, हम समझाते हैं कि ग्रीनप्लम क्या है, और ग्रीनप्लम आर्किटेक्चर, फायदे, प्रमुख उपयोग के मामले, और कैसे शुरू करें, इसके बारे में बताया गया है।

ग्रीनप्लम वास्तव में क्या है?

Greenplum Database, एनालिटिक्स के लिए एक ओपन-सोर्स, हार्डवेयर-अज्ञेय MPP डेटाबेस है, जो PostgreSQL पर आधारित है और Pivotal द्वारा विकसित किया गया है जिसे बाद में VMware द्वारा अधिग्रहित किया गया था। इसका आर्किटेक्चर विशेष रूप से बड़े पैमाने पर डेटा वेयरहाउस और बिजनेस इंटेलिजेंस वर्कलोड को प्रबंधित करने के लिए डिज़ाइन किया गया था, जो आपको अपने डेटा को सर्वरों की भीड़ में फैलाने की क्षमता प्रदान करता है।

यह फीचर-पैक डेटाबेस डेटा पर शक्तिशाली और तेज़ विश्लेषण प्रदान करता है जो पेटाबाइट वॉल्यूम तक बढ़ता है।

एक नज़र में - TLDR

द ग्रीनप्लम आर्किटेक्चर

ग्रीनप्लम एक एमपीपी डेटाबेस डिज़ाइन का उपयोग करता है जो आपको एक स्केलेबल, उच्च प्रदर्शन परिनियोजन विकसित करने में मदद कर सकता है। अभी पढ़ें

ग्रीनप्लम के फायदे

उच्च प्रदर्शन, क्वेरी ऑप्टिमाइज़ेशन, ओपन सोर्स और पॉलीमॉर्फिक डेटा स्टोरेज ग्रीनप्लम के प्रमुख फायदे हैं। अभी पढ़ें

प्रमुख उपयोग के मामले

देखें कि ग्रीनप्लम एनालिटिक्स, मशीन लर्निंग और एआई उपयोग के मामलों के लिए सबसे अच्छा डेटाबेस क्यों है। अभी पढ़ें

द ग्रीनप्लम आर्किटेक्चर

ग्रीनप्लम आर्किटेक्चर की अच्छी समझ प्राप्त करने के लिए, आइए पहले देखें कि एमपीपी डेटाबेस क्या है।

MPP डेटाबेस क्या है?

बड़ी मात्रा में जटिल डेटा, या बड़े डेटा को संभालते समय, संभावना है कि आपकी मुख्य मशीन को आपके विश्लेषण का उत्पादन करने के लिए संसाधित किए जाने वाले सभी डेटा से कुचलना शुरू हो सकता है। परिणाम। तेजी से प्रसंस्करण और त्वरित परिणाम सक्षम करने की इस आवश्यकता को पूरा करने के लिए, कई संगठन एमपीपी डेटाबेस को अपनाने पर विचार करते हैं।

एमपीपी सिस्टम समानांतर में कई ऑपरेशनों को संभालने के लिए एक साझा-कुछ नहीं आर्किटेक्चर का लाभ उठाता है। यह कई अलग-अलग प्रसंस्करण इकाइयों का उपयोग करता है जो अपनी समर्पित मेमोरी और संसाधनों का उपयोग करके स्वतंत्र रूप से काम करते हैं, इसलिए कार्यभार को केवल एक के बजाय कई उपकरणों में साझा किया जाता है। आम तौर पर एक एमपीपी सिस्टम में एक लीडर नोड और एक या कई कंप्यूट नोड होते हैं। ग्रीनप्लम में लीडर नोड, जिसे 'मास्टर' कहा जाता है, अन्य सभी नोड्स को बताता है, जिन्हें ग्रीनप्लम में सेगमेंट कहा जाता है, क्या करना है, और अंतिम उत्तर बनाने के लिए उनकी प्रतिक्रियाओं को मिलाता है।

MPP डेटाबेस क्षैतिज पैमाने पर अधिक से अधिक महंगे व्यक्तिगत सर्वर (लंबवत स्केलिंग) में अपग्रेड करने के बारे में चिंता करने के बजाय, अधिक गणना संसाधन (नोड्स) जोड़कर।

ग्रीनप्लम आर्किटेक्चरल डिज़ाइन

PostgreSQL आर्किटेक्चर के आधार पर, ग्रीनप्लम अनिवार्य रूप से एक ही ग्रीनप्लम क्लस्टर में एक समय में कई PostgreSQL डेटाबेस इंस्टेंस का लाभ उठाता है। PostgreSQL उपयोगकर्ता इस डेटाबेस प्रकार से जल्दी से परिचित हो सकते हैं, क्योंकि ग्रीनप्लम में कई सुविधाएँ, कॉन्फ़िगरेशन और कार्यक्षमता समान हैं, और इसमें ऐसी सुविधाएँ शामिल हैं जो यह अनुकूलित करने के लिए डिज़ाइन की गई हैं कि PostgreSQL व्यावसायिक इंटेलिजेंस (BI) कार्यों और कार्यभार के लिए कैसे काम करता है।

Greenplum ने कई विशेषताएं भी पेश कीं जो PostgreSQL के भीतर अनुपलब्ध हैं, जैसे समानांतर डेटा लोडिंग, संसाधन प्रबंधन, स्टोरेज एन्हांसमेंट और उन्नत क्वेरी ऑप्टिमाइज़ेशन, जब आप तुलना कर रहे हों तो इसे एक आकर्षक पेशकश बनाते हैं। दो।

PostgreSQL के समान, ग्रीनप्लम एक मास्टर सर्वर, या होस्ट का लाभ उठाता है, जो डेटाबेस का प्रवेश-बिंदु है, कनेक्शन स्वीकार करता है, और SQL क्वेरीज़। हालाँकि, जहाँ PostgreSQL भौगोलिक रूप से अपनी तैनाती को वितरित करने के लिए स्टैंडबाय नोड्स का लाभ उठाता है, ग्रीनप्लम सेगमेंट होस्ट का उपयोग करता है जो डेटा को संग्रहीत और संसाधित करता है। ग्रीनप्लम खंड स्वतंत्र हैं और प्रत्येक डेटा का एक हिस्सा संग्रहीत करता है, हालांकि अधिकांश क्वेरी प्रसंस्करण को संभालता है। आप कम से कम दो सेगमेंट होस्ट और असीमित क्षमता के पैमाने का लाभ उठा सकते हैं। यदि आपके पास मिररिंग सक्षम है, तो आपको अपने सेगमेंट होस्ट को कम से कम दो की वृद्धि में बढ़ाना होगा।

तो, यह सब कैसे समन्वित है? ग्रीनप्लम इंटरकनेक्ट आर्किटेक्चर की नेटवर्किंग परत है, और ग्रीनप्लम सेगमेंट और मास्टर होस्ट नेटवर्क इंफ्रास्ट्रक्चर के बीच संचार का प्रबंधन करता है।

ग्रीनप्लम के फायदे

यहां कुछ प्रमुख ग्रीनप्लम फायदे दिए गए हैं जो आपके डेटाबेस के प्रदर्शन को बेहतर बनाने में आपकी मदद कर सकते हैं:

उच्च प्रदर्शन

ग्रीनप्लम में एक विशिष्ट रूप से डिज़ाइन की गई डेटा पाइपलाइन है जो रैम मेमोरी में डेटा फिटिंग पर भरोसा किए बिना, डिस्क से सीपीयू तक डेटा को कुशलतापूर्वक स्ट्रीम कर सकती है, जैसा कि उनके ग्रीनप्लम नेक्स्ट जेनरेशन बिग में बताया गया है। डेटा प्लेटफ़ॉर्म:शीर्ष 5 कारण लेख। यह ग्रीनप्लम परिनियोजन को इन-मेमोरी सिस्टम पर एक विशाल प्रदर्शन बूस्ट के साथ प्रदान करता है, जिन्हें अपने डेटा को स्टोर करने के लिए पर्याप्त मेमोरी की आवश्यकता होती है, या गैर-आरडीबीएमएस आधारित सिस्टम जो इन-मेमोरी प्रोसेसिंग इंजन हैं जो प्रत्येक समवर्ती क्वेरी के लिए रैम आवंटित करते हैं। ग्रीनप्लम का उच्च प्रदर्शन उस चुनौती को समाप्त कर देता है जिसमें अधिकांश आरडीबीएमएस के पास डेटा के पेटाबी स्तर तक स्केलिंग होती है, क्योंकि वे डेटा को कुशलतापूर्वक संसाधित करने के लिए रैखिक रूप से स्केल करने में सक्षम होते हैं।
क्वेरी ऑप्टिमाइज़ेशन

ग्रीनप्लम में बड़े पैमाने पर, बड़े डेटा वर्कलोड के लिए लागत-आधारित क्वेरी ऑप्टिमाइज़र की सुविधा है। जैसा कि हमने ऊपर कवर किया है, प्रदर्शन में दोहन, ग्रीनप्लम आपके क्वेरी प्रदर्शन को कम किए बिना इंटरएक्टिव और बैच-मोड एनालिटिक्स को पेटाबाइट स्केल पर स्केल करता है। यह ग्रीनप्लम को उनके विभिन्न खंडों के बीच लोड वितरित करने और क्वेरी को संसाधित करने के लिए सिस्टम के सभी संसाधनों का समानांतर रूप से उपयोग करने की अनुमति देता है।

इसके अतिरिक्त, ग्रीनप्लम 6 में OLTP (ऑनलाइन ट्रांजेक्शनल प्रोसेसिंग) वर्कलोड में सुधार के साथ, ग्रीनप्लम 5 की तुलना में सिंगल क्वेरी परफॉर्मेंस में 3.5c से अधिक सुधार हुआ है। इस अपडेट के साथ, ग्रीनप्लम ने बहुत सारे प्रतियोगिता को लॉक करें ताकि मास्टर सीपीयू का उपयोग 90% से अधिक हो सके जो मास्टर नोड के हार्डवेयर प्रदर्शन में सुधार करके क्वेरी के प्रदर्शन में सुधार करता है।
ओपन सोर्स

Greenplum डेटाबेस PostgreSQL के ओपन सोर्स कोर पर आधारित एक ओपन सोर्स डेटा वेयरहाउस प्रोजेक्ट है, जो उपयोगकर्ताओं को ग्रीनप्लम के लक्षित अनुकूलन के साथ-साथ PostgreSQL के पीछे दशकों के विशेषज्ञ विकास का लाभ उठाने की अनुमति देता है। बड़े डेटा अनुप्रयोगों के लिए। ग्रीनप्लम किसी भी लिनक्स सर्वर पर चल सकता है, चाहे वह क्लाउड या ऑन-प्रिमाइसेस में होस्ट किया गया हो, और किसी भी वातावरण में चल सकता है।

जबकि ग्रीनप्लम मुख्य रिपॉजिटरी के लिए प्रतिबद्ध अधिकारों के साथ डेवलपर्स की एक कोर टीम द्वारा बनाए रखा जाता है, वे नए योगदानकर्ताओं का बेसब्री से स्वागत कर रहे हैं जो ग्रीनप्लम के भविष्य को आकार देने में मदद करने के लिए डेटाबेस के साथ अनुभवी हैं। ग्रीनप्लम गिटहब पेज के माध्यम से शामिल होने के बारे में और जानें।
बहुरूपी डेटा संग्रहण

ग्रीनप्लम का पॉलीमॉर्फिक डेटा स्टोरेज आपको अपनी टेबल और पार्टीशन स्टोरेज के लिए कॉन्फ़िगरेशन को नियंत्रित करने की अनुमति देता है और इसके भीतर फ़ाइलों को किसी भी समय निष्पादित और संपीड़ित करने की स्वतंत्रता देता है। यह आपको अपने विशिष्ट डेटा तक पहुँचने के तरीके के आधार पर अपनी तालिकाओं को डिज़ाइन करने की अनुमति देगा और बदले में एक पंक्ति या स्तंभ-उन्मुख भंडारण पदानुक्रम होगा।

जब आप ग्रीनप्लम में एक टेबल बनाते हैं, तो आप कॉलम-ओरिएंटेड या रो ओरिएंटेड डेटा को चुनने की क्षमता के साथ ओरिएंटेशन को नियंत्रित कर सकते हैं। कॉलम ओरिएंटेड आमतौर पर फुल स्कैन के लिए बेहतर होता है, जबकि रो ओरिएंटेड छोटे स्कैन या लुकअप के लिए बेहतर होता है।

ग्रीनप्लम आपको डोमेन-विशिष्ट डेटा प्रकार और फ़ंक्शन बनाने की अनुमति भी देता है। अर्ध संरचित डेटा प्रकारों के उपयोग के माध्यम से, जिसमें एक्सएमएल, एचस्टोर और जेएसओएन शामिल हैं, आपके पास डेटाबेस के भीतर संरचित और असंरचित दोनों डेटा को स्टोर और विश्लेषण करने की क्षमता है।

ग्रीनप्लम डेटाबेस क्या है? बिग डेटा डेटाबेस का परिचय ट्वीट करने के लिए क्लिक करें

प्रमुख उपयोग के मामले

ग्रीनप्लम बड़े पैमाने पर समानांतर प्रसंस्करण डेटाबेस और उन्नत डेटा एनालिटिक्स का एक शक्तिशाली संयोजन प्रदान करता है जो इसे डेटा वैज्ञानिकों और वास्तुकारों के लिए कृत्रिम बुद्धिमत्ता द्वारा एकत्रित डेटा के आधार पर व्यावसायिक निर्णय लेने के लिए एक ढांचा बनाने की अनुमति देता है। और मशीन लर्निंग। आइए ग्रीनप्लम के शीर्ष उपयोग के मामलों के बारे में जानें:

Analytics

ग्रीनप्लम द्वारा प्रदान किए गए उन्नत विश्लेषण का उपयोग वित्त, निर्माण, ऑटोमोटिव, सरकार, ऊर्जा, शिक्षा, खुदरा, आदि सहित कई कार्यक्षेत्रों में किया जा रहा है, ताकि एक विस्तृत विविधता को संबोधित किया जा सके। समस्याओं का। Pivotal द्वारा हाइलाइट की गई कुछ ग्रीनप्लम डेटाबेस एनालिटिक्स क्षमताओं में डेटा प्रकारों की एक भीड़ का विश्लेषण करने, मौजूदा SQL ज्ञान का लाभ उठाने और MPP आर्किटेक्चर का उपयोग करके कम समय में अधिक मॉडल को प्रशिक्षित करने की क्षमता शामिल है।

इसके अतिरिक्त, ग्रीनप्लम इन-डेटाबेस एनालिटिक्स प्रदान करता है जो आपको डेटाबेस में सीधे एनालिटिक्स चलाने की अनुमति देता है। बाहरी एनालिटिक्स इंजन में अपना डेटा निर्यात और चलाना। एंटरप्राइज़ वर्कलोड के अनुरूप डेटाबेस के रूप में, यह आपके उपलब्ध सेगमेंट होस्ट में एनालिटिक्स को समानांतर करके प्राप्त उच्च प्रदर्शन के साथ बड़े डेटा सेट का पता लगाने के लिए आवश्यक क्षमता प्रदान करता है। आप ग्रीनप्लम के साथ पावर एनालिटिक्स टूल की एक विस्तृत श्रृंखला का भी लाभ उठा सकते हैं, जिसमें MADlib, R सांख्यिकीय भाषा, SAS और प्रेडिक्टिव मॉडलिंग मार्कअप लैंग्वेज (PMML) शामिल हैं।

उदाहरण के लिए, एक बिलियन डॉलर स्केल की इंटरनेट मार्केटिंग कंपनी ग्रीनप्लम उन्नत एनालिटिक्स का उपयोग ऑडियंस प्रोफाइलिंग करने के लिए कर रही है ताकि यह समझ सके कि उनके दर्शक कौन हैं, वे क्या खरीदते हैं, वे कौन से नेटवर्क और डिवाइस का उपयोग करते हैं, और जहां वे भौगोलिक रूप से स्थित हैं, ताकि वे अपने बाजार को बेहतर ढंग से समझ सकें और उनकी सेवा कर सकें।

मशीन लर्निंग

ग्रीनप्लम मशीन लर्निंग के लिए एक उत्कृष्ट डेटाबेस है - कंप्यूटर एल्गोरिदम का अध्ययन जो अनुभव के माध्यम से स्वचालित रूप से सुधार करता है। Apache MADlib एक खुला स्रोत, SQL-आधारित मशीन लर्निंग लाइब्रेरी है जो ग्रीनप्लम के साथ-साथ PostgreSQL पर इन-डेटाबेस चलाता है। यह संयोजन आपके ग्रीनप्लम मशीन लर्निंग परिनियोजन की समानता, मापनीयता और भविष्य कहनेवाला सटीकता में सुधार करने में आपकी सहायता करता है। मशीन लर्निंग के लिए MADlib के माध्यम से डेटा परिवर्तन और फीचर इंजीनियरिंग क्षमताएं भी उपलब्ध हैं, जिसमें वर्णनात्मक और अनुमानात्मक आंकड़े, पिवोटिंग, सत्रीकरण और श्रेणीबद्ध चर एन्कोडिंग शामिल हैं।

उदाहरण के लिए, एक सरकारी धोखाधड़ी राजस्व प्रतिधारण कंपनी GemFire के साथ ग्रीनप्लम मशीन सीखने की क्षमताओं का लाभ उठा रही है ताकि पहचान की चोरी को रोकने, सालाना $ 5B का पता लगाने और बनाए रखने और प्रसंस्करण को रोकने के लिए बड़े पैमाने पर धोखाधड़ी का पता लगाया जा सके। एक दिन में 8 मिलियन मामले।

AI

आर्टिफिशियल इंटेलिजेंस (AI), जबकि मशीन लर्निंग के समान, व्यापक विचार को संदर्भित करता है जहां मशीनें स्मार्ट तरीके से कार्यों को निष्पादित कर सकती हैं। स्मार्ट मशीनों के माध्यम से मानवीय क्षमताओं की नकल करने वाले अनुप्रयोगों के लिए ग्रीनप्लम एक बेहतरीन डेटाबेस विकल्प है। ग्रीनप्लम की उच्च गति पर बड़ी मात्रा में डेटा को अंतर्ग्रहण करने की क्षमता के साथ, यह इस डेटाबेस को स्मार्ट अनुप्रयोगों के लिए एक शक्तिशाली उपकरण बनाता है जिसे असीमित संख्या में अद्वितीय परिदृश्यों के आधार पर समझदारी से बातचीत करने की आवश्यकता होती है।

उदाहरण के लिए, एक टेलीकॉम कंपनी अपने IoT परिचालन रिपोर्टिंग सिस्टम स्मार्ट सेंसर के लिए ग्रीनप्लम डेटाबेस AI क्षमताओं का उपयोग कर रही है ताकि रखरखाव, सुरक्षा और संचालन क्षमता के लिए उपयोग की जाने वाली घटनाओं का विश्लेषण और निष्पादन किया जा सके।

तो आज ग्रीनप्लम का उपयोग कौन कर रहा है? ग्रीनप्लम के ग्राहकों में अमेरिकन एक्सप्रेस, वॉलमार्ट, असुरियन, बैंक ऑफ अमेरिका, और बैंकिंग, पेशेवर सेवाओं, मीडिया, बीमा, स्वास्थ्य देखभाल, ऑटोमोटिव और खुदरा बाजारों में कई अन्य शामिल हैं।

आरंभ कैसे करें

जैसा कि इस पूरे पोस्ट में बताया गया है, ग्रीनप्लम एक ओपन सोर्स डेटाबेस है, इसलिए समुदाय संस्करण डाउनलोड करने और उपयोग करने के लिए बिल्कुल मुफ्त है। ग्रीनप्लम का छोटा लेकिन सक्रिय समुदाय नए योगदानकर्ताओं का स्वागत करता है, प्रतिक्रिया स्वीकार करता है, और बड़े डेटा डेटाबेस को बढ़ावा देने के लिए ग्रीनप्लम प्रचारकों के साथ सहयोग करता है।

ग्रीनप्लम का लाभ उठाने वाले कई संगठन अपने डीबीए को उनकी तैनाती को प्रबंधित करने में मदद करने के लिए अतिरिक्त समर्थन और टूल की तलाश कर रहे हैं। ग्रीनप्लम के लिए उपलब्ध दो अलग-अलग डेटाबेस प्रबंधन और समर्थन विकल्प यहां दिए गए हैं:

ScaleGrid for Greenplum® Database - Open Source Version

ScaleGrid for Greenplum® डेटाबेस मई 2020 में लॉन्च होने वाले ग्रीनप्लम के ओपन सोर्स संस्करण के लिए पूरी तरह से प्रबंधित समाधान है। मल्टी-क्लाउड प्लेटफ़ॉर्म आपको AWS पर परिनियोजित और प्रबंधित करने की अनुमति देता है, Azure या Google क्लाउड (जल्द ही आ रहा है) क्लाउड प्लेटफ़ॉर्म, या VMware ऑन-प्रिमाइसेस वातावरण। स्केलग्रिड ग्रीनप्लम उपयोगकर्ताओं को उन्नत प्रबंधन उपकरण प्रदान करता है, जिन्हें उन्हें एक क्लिक में तैनात करने, बैकअप को स्वचालित करने और अपने ओपन सोर्स परिनियोजन पर पूर्ण सुपर उपयोगकर्ता व्यवस्थापक विशेषाधिकार बनाए रखने की क्षमता के साथ गतिशील रूप से स्केल करने की आवश्यकता होती है।

Pivotal Greenplum - वाणिज्यिक संस्करण

मुख्य ग्रीनप्लम, अब VMware Tanzu ओपन सोर्स डेटाबेस के पीछे निर्माता है जो क्लाउड और ऑन-प्रिमाइसेस में ग्रीनप्लम को तैनात और प्रबंधित करने में आपकी मदद करने के लिए डेटाबेस का एक व्यावसायिक संस्करण प्रदान करता है। Pivotal Greenplum कई लाभ प्रदान करता है, जैसे अपटाइम को अधिकतम करने की क्षमता, डेटा अखंडता की रक्षा करना, और स्ट्रीमिंग डेटा और क्लाउड डेटा को आसानी से संभालना।

स्केलग्रिड और पिवोटल ग्रीनप्लम दोनों ही आपके डीबीए को अपने ग्रीनप्लम परिनियोजन को अनुकूलित करने में मदद करने के लिए उन्नत समर्थन पैकेज प्रदान करते हैं।