Oracle
 sql >> डेटाबेस >  >> RDS >> Oracle

हाइव क्वेरी लैंग्वेज में प्राइमरी की और इंडेक्स पॉसिबल है या नहीं?

हाइव इंडेक्सिंग को Hive 0.7.0 (HIVE-417) में पेश किया गया था और Hive 3.0 (HIVE-18448) में हटा दिया गया था, कृपया इस जीरा में टिप्पणियाँ पढ़ें। हाइव में यह सुविधा पूरी तरह से बेकार थी। बड़े डेटा, RIP के लिए ये इंडेक्स बहुत महंगे थे।

Hive 2.1.0 (HIVE-13290) के अनुसार Hive में गैर-मान्य प्राथमिक और विदेशी कुंजी बाधाओं के लिए समर्थन शामिल है . इन बाधाओं को मान्य नहीं किया गया है, एक अपस्ट्रीम सिस्टम को हाइव में लोड होने से पहले डेटा अखंडता सुनिश्चित करने की आवश्यकता होती है। ये बाधाएं ईआर आरेख और प्रश्न उत्पन्न करने वाले उपकरणों के लिए उपयोगी हैं। साथ ही ऐसी गैर-मान्य बाधाएं स्व-दस्तावेजीकरण के रूप में उपयोगी हैं। यदि तालिका में ऐसी बाधा है तो आप आसानी से पता लगा सकते हैं कि पीके क्या होना चाहिए।

Oracle डेटाबेस में Unique, PK और FK बाधाओं को अनुक्रमणिका के साथ समर्थित किया जाता है, इसलिए वे तेजी से काम कर सकते हैं और वास्तव में उपयोगी हैं। लेकिन ऐसा नहीं है कि हाइव कैसे काम करता है और इसे किस लिए डिजाइन किया गया था।

जब आप एचडीएफएस में अर्ध-संरचित डेटा के साथ बहुत बड़ी फ़ाइल लोड करते हैं तो काफी सामान्य परिदृश्य होता है। इस पर एक इंडेक्स बनाना बहुत महंगा है और इंडेक्स के बिना पीके उल्लंघन की जांच करना केवल सभी डेटा को स्कैन करना संभव है। और आम तौर पर आप BigData में बाधाओं को लागू नहीं कर सकते। अपस्ट्रीम प्रक्रिया डेटा अखंडता और स्थिरता के बारे में ध्यान रख सकती है लेकिन यह गारंटी नहीं देता है कि अंततः आपको विभिन्न स्रोतों से लोड की गई कुछ बड़ी तालिका में हाइव में पीके उल्लंघन नहीं होगा।

ORC जैसे कुछ फ़ाइल भंडारण स्वरूपों में फ़िल्टरिंग को गति देने और विधेय पुश डाउन (PPD) को सक्षम करने के लिए आंतरिक हल्के वजन "इंडेक्स" होते हैं, ऐसे इंडेक्स का उपयोग करके कोई PK और FK बाधाएं लागू नहीं की जाती हैं। ऐसा नहीं किया जा सकता क्योंकि आम तौर पर आपके पास हाइव में एक ही टेबल से संबंधित कई ऐसी फाइलें हो सकती हैं और फाइलों में अलग-अलग स्कीमा भी हो सकते हैं। पेटाबाइट्स के लिए हाइव बनाया गया है और आप पेटाबाइट्स को सिंगल रन में प्रोसेस कर सकते हैं, डेटा सेमी-स्ट्रक्चर्ड हो सकता है, फाइलों में अलग-अलग स्कीमा हो सकते हैं। Hadoop यादृच्छिक लेखन का समर्थन नहीं करता है और यदि आप अनुक्रमणिका का पुनर्निर्माण करना चाहते हैं तो यह अधिक जटिलताएं और लागत जोड़ता है।




  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. ओरेकल फ्लोट्स बनाम नंबर

  2. Oracle में निर्देशिका कैसे बनाएं?

  3. ORA-00972 पहचानकर्ता बहुत लंबा उपनाम स्तंभ नाम है

  4. समवर्ती प्रबंधक में अनुरोध सेट

  5. Oracle डेटाबेस में सेलेक्ट INTO स्टेटमेंट के साथ बल्क कलेक्ट क्लॉज का उपयोग कैसे करें