PostgreSQL
 sql >> डेटाबेस >  >> RDS >> PostgreSQL

PostgreSQL से AWS s3 में बड़ा डेटा निर्यात करें

बड़े डेटा डंप का निर्यात करते समय आपकी सबसे बड़ी चिंता विफलताओं को कम करने की होनी चाहिए। यहां तक ​​कि अगर आप एक जीबी नेटवर्क कनेक्शन को संतृप्त कर सकते हैं, तो 10 टीबी डेटा को स्थानांतरित करने में> 24 घंटे लगेंगे। विफलता के कारण (जैसे डेटाबेस कनेक्शन टाइमआउट) आप इसे पुनरारंभ नहीं करना चाहते हैं।

इसका मतलब है कि आपको निर्यात को कई टुकड़ों में तोड़ना चाहिए। आप कॉपी के अंदर चयन कथन में एक आईडी श्रेणी जोड़कर ऐसा कर सकते हैं (मैंने अभी आपका उदाहरण संपादित किया है, इसलिए त्रुटियां हो सकती हैं):

COPY (SELECT (ID, NAME, ADDRESS) FROM CUSTOMERS WHERE ID BETWEEN 0 and 1000000) TO ‘CUSTOMERS_DATA_0.CSV WITH DELIMITER '|' CSV;

बेशक, आप इन बयानों को एक संक्षिप्त कार्यक्रम के साथ उत्पन्न करेंगे; प्रत्येक के लिए आउटपुट फ़ाइल का नाम बदलना न भूलें। मैं एक आईडी श्रेणी चुनने की सलाह देता हूं जो आपको प्रति आउटपुट फ़ाइल में एक गीगाबाइट या उससे अधिक देता है, जिसके परिणामस्वरूप 10,000 मध्यवर्ती फाइलें होती हैं।

आप इन फाइलों को कहां लिखते हैं यह आप पर निर्भर है। यदि S3FS पर्याप्त रूप से विश्वसनीय है, तो मुझे लगता है कि यह एक अच्छा विचार है।

अनलोड को कई छोटे टुकड़ों में तोड़कर, आप इसे कई EC2 उदाहरणों में विभाजित भी कर सकते हैं। आप शायद केवल कुछ पाठकों के साथ डेटाबेस मशीन की बैंडविड्थ को संतृप्त करेंगे। यह भी जान लें कि क्रॉस-एजेड डेटा ट्रांसफर के लिए एडब्ल्यूएस $0.01 प्रति जीबी चार्ज करता है - 10 टीबी के साथ जो कि $ 100 है - इसलिए सुनिश्चित करें कि ये ईसी 2 मशीनें डेटाबेस मशीन के समान एजेड में हैं।

इसका मतलब यह भी है कि आप अनलोड कर सकते हैं जबकि डेटाबेस अन्यथा व्यस्त नहीं है (यानी, सामान्य कामकाजी घंटों के बाहर)।

अंत में, इसका मतलब है कि आप अपनी प्रक्रिया का परीक्षण कर सकते हैं, और आप संपूर्ण निर्यात चलाए बिना किसी भी डेटा त्रुटि को ठीक कर सकते हैं (या प्रत्येक सुधार के लिए 10TB डेटा संसाधित कर सकते हैं)।

आयात पक्ष पर, Redshift एकाधिक लोड कर सकता है समानांतर में फ़ाइलें . इससे आपके कुल समय में सुधार होना चाहिए, हालांकि मैं वास्तव में यह नहीं कह सकता कि कितना।

एक चेतावनी:मेनिफेस्ट फ़ाइल का उपयोग करें ऑब्जेक्ट नाम उपसर्ग के बजाय। मैंने ऐसे मामलों में भाग लिया है जहां S3 की अंतिम स्थिरता के कारण लोड के दौरान फ़ाइलें छोड़ दी जाती हैं।



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. अजगर और psycopg2 के साथ पोस्टग्रेज करने के लिए CSV आयात करते समय त्रुटि

  2. Postgresql पर प्रोग्रामेटिक रूप से DDL जेनरेट करें

  3. 2d सरणी से 1d सरणी का चयन कैसे करें?

  4. [टेम्पलेट], [एन्कोडिंग], [स्वामी] और एक .sql फ़ाइल के साथ बैच फ़ाइल का उपयोग करके पोस्टग्रेज़ डेटाबेस बनाएँ

  5. 'postgres.h' फ़ाइल को कैसे ठीक करें समस्या नहीं मिली?