हाइव क्वेरी लैंग्वेज में प्राइमरी की और इंडेक्स पॉसिबल है या नहीं?

हाइव इंडेक्सिंग को Hive 0.7.0 (HIVE-417) में पेश किया गया था और Hive 3.0 (HIVE-18448) में हटा दिया गया था, कृपया इस जीरा में टिप्पणियाँ पढ़ें। हाइव में यह सुविधा पूरी तरह से बेकार थी। बड़े डेटा, RIP के लिए ये इंडेक्स बहुत महंगे थे।

Hive 2.1.0 (HIVE-13290) के अनुसार Hive में गैर-मान्य प्राथमिक और विदेशी कुंजी बाधाओं के लिए समर्थन शामिल है . इन बाधाओं को मान्य नहीं किया गया है, एक अपस्ट्रीम सिस्टम को हाइव में लोड होने से पहले डेटा अखंडता सुनिश्चित करने की आवश्यकता होती है। ये बाधाएं ईआर आरेख और प्रश्न उत्पन्न करने वाले उपकरणों के लिए उपयोगी हैं। साथ ही ऐसी गैर-मान्य बाधाएं स्व-दस्तावेजीकरण के रूप में उपयोगी हैं। यदि तालिका में ऐसी बाधा है तो आप आसानी से पता लगा सकते हैं कि पीके क्या होना चाहिए।

Oracle डेटाबेस में Unique, PK और FK बाधाओं को अनुक्रमणिका के साथ समर्थित किया जाता है, इसलिए वे तेजी से काम कर सकते हैं और वास्तव में उपयोगी हैं। लेकिन ऐसा नहीं है कि हाइव कैसे काम करता है और इसे किस लिए डिजाइन किया गया था।

जब आप एचडीएफएस में अर्ध-संरचित डेटा के साथ बहुत बड़ी फ़ाइल लोड करते हैं तो काफी सामान्य परिदृश्य होता है। इस पर एक इंडेक्स बनाना बहुत महंगा है और इंडेक्स के बिना पीके उल्लंघन की जांच करना केवल सभी डेटा को स्कैन करना संभव है। और आम तौर पर आप BigData में बाधाओं को लागू नहीं कर सकते। अपस्ट्रीम प्रक्रिया डेटा अखंडता और स्थिरता के बारे में ध्यान रख सकती है लेकिन यह गारंटी नहीं देता है कि अंततः आपको विभिन्न स्रोतों से लोड की गई कुछ बड़ी तालिका में हाइव में पीके उल्लंघन नहीं होगा।

ORC जैसे कुछ फ़ाइल भंडारण स्वरूपों में फ़िल्टरिंग को गति देने और विधेय पुश डाउन (PPD) को सक्षम करने के लिए आंतरिक हल्के वजन "इंडेक्स" होते हैं, ऐसे इंडेक्स का उपयोग करके कोई PK और FK बाधाएं लागू नहीं की जाती हैं। ऐसा नहीं किया जा सकता क्योंकि आम तौर पर आपके पास हाइव में एक ही टेबल से संबंधित कई ऐसी फाइलें हो सकती हैं और फाइलों में अलग-अलग स्कीमा भी हो सकते हैं। पेटाबाइट्स के लिए हाइव बनाया गया है और आप पेटाबाइट्स को सिंगल रन में प्रोसेस कर सकते हैं, डेटा सेमी-स्ट्रक्चर्ड हो सकता है, फाइलों में अलग-अलग स्कीमा हो सकते हैं। Hadoop यादृच्छिक लेखन का समर्थन नहीं करता है और यदि आप अनुक्रमणिका का पुनर्निर्माण करना चाहते हैं तो यह अधिक जटिलताएं और लागत जोड़ता है।