PostgreSQL
 sql >> डेटाबेस >  >> RDS >> PostgreSQL

SparkSQL PostgresQL डेटाफ़्रेम विभाजन

प्रत्येक समानांतर कार्य के लिए वृद्धि या विभाजन की गणना के लिए अनिवार्य रूप से निचली और ऊपरी सीमा और विभाजन की संख्या का उपयोग किया जाता है।

मान लें कि तालिका में विभाजन कॉलम "वर्ष" है, और इसमें 2006 से 2016 तक का डेटा है।

यदि आप विभाजनों की संख्या को 10 के रूप में परिभाषित करते हैं, तो निचले बाउंड 2006 और उच्चतर बाउंड 2016 के साथ, आपके पास अपने स्वयं के वर्ष के लिए डेटा प्राप्त करने वाला प्रत्येक कार्य होगा - आदर्श मामला।

भले ही आप गलत तरीके से निचली और/या ऊपरी सीमा निर्दिष्ट करते हैं, उदा. निचला =0 और ऊपरी =2016 सेट करें, डेटा स्थानांतरण में एक विषमता होगी, लेकिन, आप किसी भी डेटा को "खो" या पुनः प्राप्त करने में विफल नहीं होंगे, क्योंकि:

पहला कार्य वर्ष <0.

. के लिए डेटा प्राप्त करेगा

दूसरा कार्य 0 और 2016/10 के बीच वर्ष के लिए डेटा प्राप्त करेगा।

तीसरा टास्क 2016/10 और 2*2016/10 के बीच साल के लिए डेटा लाएगा।

...

और अंतिम कार्य की वर्ष->2016 के साथ एक स्थिति होगी।

टी.



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. फ़ंक्शन मौजूद नहीं है, लेकिन मुझे सच में लगता है कि यह करता है

  2. SQL में मिलान एल्गोरिथ्म

  3. एकाधिक थ्रेड्स का उपयोग करके फ़ाइल लिखना

  4. PostgreSQL में माइग्रेट करने के लिए सर्वश्रेष्ठ ETL उपकरण

  5. क्लोजर प्रोजेक्ट, उत्पादन पर्यावरण के मुद्दों के साथ उसकेोकू को तैनात करना