ईटीएल बनाम ईएलटी:हम मानते हैं, आप जज

पूर्ण प्रकटीकरण:चूंकि यह लेख एक ईटीएल-केंद्रित कंपनी द्वारा लिखा गया है, जो डेटाबेस के बाहर बड़े डेटा में हेरफेर करने के अपने मजबूत सूट के साथ है, इसलिए जो कुछ भी है वह कई लोगों के लिए उद्देश्यपूर्ण नहीं होगा। फिर भी यह अभी भी विचार के लिए भोजन प्रस्तुत करने के लिए है, और चर्चा के लिए मंजिल खोलता है।

उनकी शुरुआत के बाद से, डेटा वेयरहाउस आर्किटेक्ट्स (डीडब्ल्यूए) को अलग-अलग सोर्स किए गए और स्वरूपित डेटा के साथ डेटा वेयरहाउस बनाने और पॉप्युलेट करने का काम सौंपा गया है। डेटा वॉल्यूम में नाटकीय वृद्धि के कारण, इन्हीं डीडब्ल्यूए को अपने डेटा एकीकरण और स्टेजिंग संचालन को अधिक कुशलता से लागू करने के लिए चुनौती दी जाती है। लक्ष्य डेटाबेस के अंदर या बाहर डेटा परिवर्तन होगा या नहीं, यह सवाल प्रदर्शन, सुविधा और वित्तीय परिणामों में शामिल होने के कारण महत्वपूर्ण हो गया है।

ईटीएल (एक्सट्रेक्ट, ट्रांसफॉर्म, लोड) संचालन में, डेटा को विभिन्न स्रोतों से निकाला जाता है, अलग से रूपांतरित किया जाता है, और एक डीडब्ल्यू डेटाबेस और संभवतः अन्य लक्ष्यों में लोड किया जाता है। ईएलटी में, अर्क को सिंगल स्टेजिंग डेटाबेस में फीड किया जाता है जो ट्रांसफॉर्मेशन को भी हैंडल करता है।

ETL प्रचलित है क्योंकि मार्केटप्लेस Informatica, IBM, Oracle और IRI जैसे सिद्ध खिलाड़ियों के साथ वोरासिटी के साथ फलता-फूलता है, जो डेटा निकालने और बदलने के लिए FACT (फास्ट एक्सट्रैक्ट), CoSort या Hadoop ट्रांसफ़ॉर्म और बल्क लोडिंग को जोड़ती है। यह दृष्टिकोण बड़े पैमाने पर डेटा परिवर्तन के ओवरहेड के साथ भंडारण और पुनर्प्राप्ति (क्वेरी ऑप्टिमाइज़ेशन) के लिए डिज़ाइन किए गए डेटाबेस को बोझिल होने से रोकता है।

हालाँकि, नई डेटाबेस तकनीक और Oracle Exadata जैसे हार्डवेयर उपकरणों के विकास के साथ, जो 'एक बॉक्स में' परिवर्तनों को संभाल सकते हैं, कुछ परिस्थितियों में ELT एक व्यावहारिक समाधान हो सकता है। और स्टेजिंग (लोड) और सिमेंटिक (ट्रांसफ़ॉर्म) परतों को अलग करने के विशिष्ट लाभ हैं।

ईएलटी का एक उद्धृत लाभ परिवर्तन प्रक्रिया से लोड प्रक्रिया का अलगाव है, क्योंकि यह इन चरणों के बीच एक अंतर्निहित निर्भरता को हटा देता है।

हम ध्यान दें कि आईआरआई का ईटीएल दृष्टिकोण उन्हें वैसे भी अलग करता है क्योंकि फाइल सिस्टम (या एचडीएफएस) में वोरैसिटी डेटा को चरणबद्ध करता है। डेटाबेस के लिए बाध्य कोई भी डेटा खंड (पूर्व-सॉर्ट किए गए) लोड से पहले बाहरी रूप से प्राप्त, साफ और रूपांतरित किया जा सकता है। यह बड़े पैमाने पर डेटाबेस (साथ ही बीआई/विश्लेषणात्मक उपकरण, आदि) को बदलने का बोझ उठाता है।

डेटा वॉल्यूम और बजट अक्सर यह निर्धारित करते हैं कि डीडब्ल्यूए को ईटीएल या ईएलटी समाधान विकसित करना चाहिए या नहीं। अपने आईटीटूलबॉक्स ब्लॉग लेख "सो व्हाट इज़ बेटर, ईटीएल या ईएलटी?" में, विन्सेंट मैकबर्नी ने अपने पेशेवरों और विपक्षों को किसी भी दृष्टिकोण के लिए प्रस्तुत किया है, जिसे मैंने यहां नीचे दोहराया है, और फिर प्रत्येक का अनुसरण करते हुए एक सामान्य प्रतिक्रिया है कि आईआरआई ईटीएल -उन्मुख उपयोगकर्ता बिंदु पर बनाते हैं (मेरी प्रारंभिक व्यक्तिपरकता चेतावनी के अनुसार):

पेशेवर ईटीएल

ETL कार्यभार को संतुलित कर सकता है और कार्यभार को RDBMS के साथ साझा कर सकता है - और वास्तव में डेटा को SortCL प्रोग्राम या Hadoop के माध्यम से वोरासिटी में कोडिंग के बिना रूपांतरित करके उस कार्यभार को हटा सकता है

ETL डेटा मैप के ज़रिए सिंगल डेटा फ़्लो डायग्राम में ज़्यादा जटिल ऑपरेशन कर सकता है - वोरैसिटी मैपिंग और वर्कफ़्लो डायग्राम की तरह, जो छोटे, खुले होते हैं 4GL स्क्रिप्ट बनाम SQL

ईटीएल अलग हार्डवेयर के साथ स्केल कर सकता है - कमोडिटी बॉक्स पर आप एकल-विक्रेता उपकरणों की तुलना में बहुत कम लागत पर खुद को स्रोत और रखरखाव कर सकते हैं

ETL डेटा मॉडल, डेटाबेस लेआउट और स्रोत डेटा मॉडल आर्किटेक्चर से स्वतंत्र विभाजन और समानांतरवाद को संभाल सकता है - हालांकि वोरासिटी की CoSort SortCL जॉब विभाजन की बिल्कुल भी आवश्यकता नहीं है…

ETL डेटा को इन-स्ट्रीम संसाधित कर सकता है, क्योंकि यह स्रोत से लक्ष्य में स्थानांतरित होता है - या बैच में, यदि यह समझ में आता है, तो भी

ETL को अपना काम करने के लिए डेटा सेट के सह-स्थान की आवश्यकता नहीं है - आपको डेटा सिंक्रनाइज़ेशन चिंताओं के बिना मौजूदा डेटा स्रोत प्लेटफ़ॉर्म को बनाए रखने की अनुमति देता है

ETL आज बड़ी मात्रा में मेटाडेटा वंश को कैप्चर करता है- कोई डीबी स्टेजिंग कितनी अच्छी तरह या सहजता से ऐसा कर सकता है?

ETL SMP या MPP हार्डवेयर पर चल सकता है - जिसे आप फिर से प्रबंधित कर सकते हैं और अधिक लागत प्रभावी ढंग से उपयोग कर सकते हैं, और DB के साथ प्रदर्शन विवाद के बारे में चिंता न करें

ETL जानकारी को पंक्ति-दर-पंक्ति संसाधित करता है और ऐसा लगता है कि यह तृतीय पक्ष उत्पादों में डेटा एकीकरण के साथ अच्छी तरह से काम करता है - हालांकि अभी भी बेहतर है पूर्ण ब्लॉक, तालिका, या फ़ाइल (फ़ाइलें)-एक-समय, जो Voracity मात्रा में चलती है।

विपक्ष ETL

ETL इंजन के लिए अतिरिक्त हार्डवेयर निवेश की आवश्यकता है - जब तक कि आप इसे डेटाबेस सर्वर पर नहीं चलाते

ईटीएल प्रणाली के निर्माण या ईटीएल उपकरणों को लाइसेंस देने की अतिरिक्त लागत - जो अभी भी ईएलटी उपकरणों की तुलना में सस्ते हैं, लेकिन अभी भी सस्ते हैं वोरासिटी जैसे आईआरआई उपकरण जो इस तरह की जटिलता के बिना ईटीएल को गति देने के लिए फास्ट एक्सट्रैक्ट (एफएसीटी) और कोसॉर्ट को मिलाते हैं<बीआर />

पंक्ति-आधारित दृष्टिकोण का संभावित कम प्रदर्शन - ठीक है, और बड़े हिस्से में डेटा को प्रोफाइल करने, हासिल करने, बदलने और आउटपुट करने की Voracity की क्षमता क्यों तेज है

ईटीएल टूल को लागू करने के लिए आवश्यक विशिष्ट कौशल और सीखने की अवस्था - जब तक कि आप वोरैसिटी जैसे एर्गोनोमिक जीयूआई का उपयोग नहीं कर रहे हैं जो एक ही एक्लिप्स आईडीई में कई जॉब डिज़ाइन विकल्प प्रदान करता है

ईटीएल उपकरण विक्रेता पर निर्भरता के कारण कम लचीलापन - मुझे यकीन नहीं है कि इसके बजाय एकल ईएलटी/उपकरण विक्रेता पर भरोसा करने से यह कैसे बेहतर हुआ है; क्या विक्रेता-स्वतंत्रता लचीलेपन और लागत बचत की कुंजी नहीं है?

डेटा मार्ट में आने से पहले डेटा को एक और परत के पार जाने की आवश्यकता होती है - जब तक कि मार्ट ईटीएल प्रक्रिया का एक और आउटपुट न हो, बहु-लक्षित वोरासिटी संचालन के विशिष्ट।

पेशेवर ईएलटी

ईएलटी स्केलेबिलिटी के लिए आरडीबीएमएस इंजन हार्डवेयर का लाभ उठाता है - लेकिन क्वेरी ऑप्टिमाइज़ेशन के लिए डीबी संसाधनों पर कर भी लगाता है। Voracity में CoSort और Hadoop परिवर्तन रैखिक रूप से स्केलिंग एल्गोरिदम और कार्य समेकन का लाभ उठाते हैं, न कि डीबी की मेमोरी या I/O संसाधन

ईएलटी हर समय आरडीबीएमएस में सभी डेटा रखता है - जो तब तक ठीक है जब तक स्रोत और लक्ष्य डेटा एक ही डीबी में हों

ईएलटी को डेटा सेट के अनुसार समानांतर किया जाता है, और डिस्क I/O को आमतौर पर तेज थ्रूपुट के लिए इंजन स्तर पर अनुकूलित किया जाता है - हां, लेकिन यह बाहरी परिवर्तनों के बारे में भी सच है जो DB सर्वर संसाधनों के साथ संघर्ष नहीं करते हैं

ईएलटी स्केल तब तक होता है जब तक हार्डवेयर और आरडीबीएमएस इंजन स्केल करना जारी रख सकते हैं - जिसकी कीमत उपरोक्त विकल्प के सापेक्ष कितनी है?

ईएलटी उचित रूप से ट्यून किए गए एमपीपी आरडीबीएमएस प्लेटफॉर्म पर थ्रुपुट दरों को 3x से 4x तक प्राप्त कर सकता है - जो उपकरण को ईटीएल टूल के सापेक्ष वोरासिटी प्रदर्शन स्तर पर रखता है, लेकिन लागत से 20 गुना पर।

ईएलटी परिवर्तन आरडीबीएमएस सर्वर पर किया जाता है जब डेटाबेस लक्ष्य प्लेटफॉर्म पर होता है और यह अब नेटवर्क पर दबाव नहीं डालता है - तो यह इसके बजाय डेटाबेस (उपयोगकर्ताओं) पर तनाव डालता है?

ईएलटी में एसक्यूएल के माध्यम से सरल रूपांतरण विनिर्देश हैं - जो उतना सरल, लचीला, या CoSort SortCL सिंटैक्स या वोरासिटी के एक्लिप्स जीयूआई में ड्रैग-एंड-ड्रॉप फ़ील्ड मैपिंग के रूप में समृद्ध नहीं हैं।

विपक्ष ELT

ईएलटी के लिए पूर्ण समर्थन के साथ उपलब्ध सीमित उपकरण - और उच्च मात्रा प्रदर्शन वाले डीबी उपकरणों के लिए बहुत अधिक कीमतों पर

विस्तृत रन-टाइम निगरानी आंकड़ों और डेटा वंश का नुकसान - विशेष रूप से मेटाडेटा प्रभाव फ़ाइल, तालिका, या असंरचित स्रोतों को अलग करने के परिवर्तनों पर विश्लेषण करता है

प्रदर्शन के लिए सेट आधारित डिज़ाइन के कारण प्रतिरूपकता का नुकसान - और इससे बहने वाली कार्यक्षमता/लचीलेपन का नुकसान

रूपांतरण डेटाबेस संसाधनों का उपयोग करेगा, संभावित रूप से बीआई-रिपोर्टिंग प्रदर्शन को प्रभावित करेगा - क्वेरी और अन्य डीबी संचालन के प्रदर्शन का उल्लेख नहीं करने के लिए

ईटीएलटी, टीईएलटी और यहां तक कि टीईटीएलटी जैसे हाइब्रिड आर्किटेक्चर बाद में किसी भी दृष्टिकोण में कमजोरियों को दूर करने के प्रयास में उभर रहे हैं। लेकिन ये पहले से ही इस तरह से भरी प्रक्रियाओं में जटिलता के अतिरिक्त स्तर जोड़ते प्रतीत होते हैं। वास्तव में कोई खास बात नहीं है, और कई डेटा एकीकरण परियोजनाएं SLA, लागत में वृद्धि और जटिलता के भार में विफल हो जाती हैं।

इन्हीं कारणों से IRI ने CoSort SortCL प्रोग्राम के माध्यम से डेटा को मौजूदा फाइल सिस्टम या Hadoop फैब्रिक में बिना री-कोडिंग के एकीकृत करने के लिए Voracity का निर्माण किया। वोरासिटी एकमात्र ईटीएल-उन्मुख (हालांकि ईएलटी-सपोर्टिंग) प्लेटफॉर्म है जो बाहरी डेटा ट्रांसफॉर्मेशन के लिए दोनों विकल्प प्रदान करता है। डेटा आंदोलन और हेरफेर में बेहतर मूल्य-प्रदर्शन के अलावा, वोरासिटी में शामिल हैं:

उन्नत डेटा परिवर्तन, डेटा गुणवत्ता, एमडीएम, और रिपोर्टिंग
धीरे-धीरे बदलते आयाम, डेटा कैप्चर, डेटा फ़ेडरेशन बदलें
डेटा प्रोफाइलिंग, डेटा मास्किंग, परीक्षण डेटा पीढ़ी, और मेटाडेटा प्रबंधन
सरल 4GL स्क्रिप्ट जो आप या एक्लिप्स विजार्ड, डायग्राम और डायलॉग बनाते और प्रबंधित करते हैं
Hadoop MR2, Spark, Spart Stream Storm और Tez में निर्बाध निष्पादन
इरविन स्मार्ट कनेक्टर्स के लिए समर्थन (अन्य ईटीएल टूल से रूपांतरण)
देशी MongoDB ड्राइवर और अन्य NoSQL, Hadoop, क्लाउड और लीगेसी स्रोतों से कनेक्शन
एम्बेडेड रिपोर्टिंग, आंकड़े, और भविष्य कहनेवाला कार्य, KNIME और स्प्लंक टाई-इन्स, और विश्लेषणात्मक टूल डेटा फ़ीड।

यह भी देखें:

https://www.iri.com/blog/data-transformation2/etl-elt-iri-in-in-between
https://www.iri.com/solutions/data-integration/etl
https://www.iri.com/solutions/data-integration/elt
https://www.iri.com/solutions/data-integration/implement