Sqlserver
 sql >> डेटाबेस >  >> RDS >> Sqlserver

SQL सर्वर में विरल कॉलम:समय और स्थान पर प्रभाव

SQL सर्वर 2008 ने विरल स्तंभों को अशक्त मानों के लिए भंडारण को कम करने और अधिक एक्स्टेंसिबल स्कीमा प्रदान करने के लिए एक विधि के रूप में पेश किया। व्यापार-बंद यह है कि जब आप गैर-नल मानों को संग्रहीत और पुनर्प्राप्त करते हैं तो अतिरिक्त ओवरहेड होता है। स्टेजिंग वातावरण में इस डेटा प्रकार का उपयोग करने वाले ग्राहक से बात करने के बाद, मुझे गैर-नल मानों को संग्रहीत करने की लागत को समझने में दिलचस्पी थी। वे लेखन प्रदर्शन को अनुकूलित करना चाह रहे हैं, और मुझे आश्चर्य है कि क्या विरल स्तंभों के उपयोग का कोई प्रभाव पड़ा है, क्योंकि उनकी विधि के लिए तालिका में एक पंक्ति सम्मिलित करना, फिर उसे अद्यतन करना आवश्यक है। मैंने इस डेमो के लिए एक काल्पनिक उदाहरण बनाया, जिसे नीचे समझाया गया है, यह निर्धारित करने के लिए कि क्या यह उनके लिए उपयोग करने के लिए एक अच्छी पद्धति थी।

आंतरिक समीक्षा

एक त्वरित समीक्षा के रूप में, याद रखें कि जब आप किसी तालिका के लिए एक कॉलम बनाते हैं जो NULL मानों की अनुमति देता है, यदि यह एक निश्चित-लंबाई वाला कॉलम (जैसे एक INT) है, तो यह हमेशा पेज पर पूरे कॉलम की चौड़ाई का उपभोग करेगा, भले ही कॉलम है व्यर्थ। यदि यह एक चर-लंबाई वाला कॉलम है (जैसे VARCHAR), तो यह कॉलम ऑफ़सेट सरणी में कम से कम दो बाइट्स का उपभोग करेगा जब NULL, जब तक कि कॉलम अंतिम आबादी वाले कॉलम के बाद न हों (देखें किम्बर्ली का ब्लॉग पोस्ट कॉलम ऑर्डर कोई फर्क नहीं पड़ता ... आम तौर पर , लेकिन - यह निर्भर करता है)। एक विरल स्तंभ को NULL मानों के लिए पृष्ठ पर किसी स्थान की आवश्यकता नहीं होती है, चाहे वह एक निश्चित-लंबाई वाला या चर-लंबाई वाला स्तंभ हो, और तालिका में अन्य स्तंभों की आबादी की परवाह किए बिना। व्यापार बंद यह है कि जब एक स्पैस कॉलम पॉप्युलेट होता है, तो गैर-स्पैस कॉलम की तुलना में स्टोरेज के चार (4) अधिक बाइट्स लगते हैं। उदाहरण के लिए:

कॉलम का प्रकार भंडारण आवश्यकता
बिगिनट कॉलम, गैर-स्पैस, नहीं के साथ मूल्य 8 बाइट्स
BIGINT कॉलम, गैर-स्पैस, साथ एक मान 8 बाइट्स
बिगिनट कॉलम, विरल, नहीं के साथ मूल्य 0 बाइट्स
BIGINT कॉलम, विरल, साथ एक मान 12 बाइट्स

इसलिए, यह पुष्टि करना आवश्यक है कि भंडारण लाभ पुनर्प्राप्ति के संभावित प्रदर्शन हिट से अधिक है - जो डेटा के खिलाफ पढ़ने और लिखने के संतुलन के आधार पर नगण्य हो सकता है। विभिन्न डेटा प्रकारों के लिए अनुमानित स्थान बचत को ऊपर दिए गए पुस्तकें ऑनलाइन लिंक में प्रलेखित किया गया है।

परीक्षण परिदृश्य

मैंने नीचे वर्णित परीक्षण के लिए चार अलग-अलग परिदृश्य स्थापित किए, और प्रत्येक तालिका में एक आईडी कॉलम (INT), एक नाम कॉलम (VARCHAR (100)), और एक टाइप कॉलम (INT), और फिर 997 NULLABLE कॉलम थे।

<थ>डीएमएल संचालन
टेस्ट आईडी टेबल विवरण
1 INT डेटा प्रकार के 997 कॉलम, NULLABLE, गैर-स्पैस एक बार में एक पंक्ति डालें, आईडी, नाम, प्रकार, और दस (10) रैंडम NULLABLE कॉलम को पॉप्युलेट करना
2 INT डेटा प्रकार के 997 कॉलम, NULLABLE, विरल एक बार में एक पंक्ति डालें, आईडी, नाम, प्रकार, और दस (10) रैंडम NULLABLE कॉलम को पॉप्युलेट करना
3 INT डेटा प्रकार के 997 कॉलम, NULLABLE, गैर-स्पैस एक समय में एक पंक्ति डालें, आईडी, नाम, केवल टाइप करें, फिर पंक्ति को अपडेट करें, दस (10) रैंडम NULLABLE कॉलम के लिए मान जोड़ें
4 INT डेटा प्रकार के 997 कॉलम, NULLABLE, विरल एक समय में एक पंक्ति डालें, आईडी, नाम, केवल टाइप करें, फिर पंक्ति को अपडेट करें, दस (10) रैंडम NULLABLE कॉलम के लिए मान जोड़ें
5 VARCHAR डेटा प्रकार के 997 कॉलम, NULLABLE, गैर-स्पैस एक बार में एक पंक्ति डालें, आईडी, नाम, प्रकार, और दस (10) रैंडम NULLABLE कॉलम को पॉप्युलेट करना
6 VARCHAR डेटा प्रकार के 997 कॉलम, NULLABLE, विरल एक बार में एक पंक्ति डालें, आईडी, नाम, प्रकार, और दस (10) रैंडम NULLABLE कॉलम को पॉप्युलेट करना
7 VARCHAR डेटा प्रकार के 997 कॉलम, NULLABLE, गैर-स्पैस एक समय में एक पंक्ति डालें, आईडी, नाम, केवल टाइप करें, फिर पंक्ति को अपडेट करें, दस (10) रैंडम NULLABLE कॉलम के लिए मान जोड़ें
8 VARCHAR डेटा प्रकार के 997 कॉलम, NULLABLE, विरल एक समय में एक पंक्ति डालें, आईडी, नाम, केवल टाइप करें, फिर पंक्ति को अपडेट करें, दस (10) रैंडम NULLABLE कॉलम के लिए मान जोड़ें

प्रत्येक परीक्षण दो बार 10 मिलियन पंक्तियों के डेटा सेट के साथ चलाया गया था। संलग्न लिपियों का उपयोग परीक्षण को दोहराने के लिए किया जा सकता है, और प्रत्येक परीक्षण के लिए चरण निम्नानुसार थे:

  • पूर्व-आकार के डेटा और लॉग फ़ाइलों के साथ एक नया डेटाबेस बनाएं
  • उपयुक्त तालिका बनाएं
  • स्नैपशॉट प्रतीक्षा आँकड़े और फ़ाइल आँकड़े
  • प्रारंभ समय नोट करें
  • 10 मिलियन पंक्तियों के लिए DML (एक इंसर्ट, या एक इंसर्ट और एक अपडेट) निष्पादित करें
  • स्टॉप टाइम नोट करें
  • स्नैपशॉट प्रतीक्षा आँकड़े और फ़ाइल आँकड़े और अलग भंडारण पर एक अलग डेटाबेस में एक लॉगिंग टेबल पर लिखें
  • स्नैपशॉट dm_db_index_physical_stats
  • डेटाबेस छोड़ें

परीक्षण एक Dell PowerEdge R720 पर 64GB मेमोरी और 12GB SQL Server 2014 SP1 CU4 इंस्टेंस के लिए आवंटित के साथ किया गया था। फ़्यूज़न-आईओ एसएसडी का उपयोग डेटाबेस फ़ाइलों के लिए डेटा संग्रहण के लिए किया गया था।

परिणाम

प्रत्येक परीक्षण परिदृश्य के लिए परीक्षा परिणाम नीचे प्रस्तुत किए गए हैं।

अवधि

सभी मामलों में, तालिका को पॉप्युलेट करने में कम समय (औसत 11.6 मिनट) लगा, जब स्पैस कॉलम का उपयोग किया गया था, तब भी जब पंक्ति को पहले डाला गया था, फिर अपडेट किया गया था। जब पंक्ति को पहले डाला गया, फिर अपडेट किया गया, तो परीक्षण को चलने में लगभग दोगुना समय लगा, जब पंक्ति को सम्मिलित किया गया था, क्योंकि दो बार कई डेटा संशोधनों को निष्पादित किया गया था।

प्रत्येक परीक्षण परिदृश्य के लिए औसत अवधि

प्रतीक्षा आंकड़े
टेस्ट आईडी औसत प्रतिशत औसत प्रतीक्षा (सेकंड)
1 16.47 0.0001
2 14.00 0.0001
3 16.65 0.0001
4 15.07 0.0001
5 12.80 0.0001
6 13.99 0.0001
7 14.85 0.0001
8 15.02 0.0001

प्रतीक्षा के आँकड़े सभी परीक्षणों के लिए सुसंगत थे और इस डेटा के आधार पर कोई निष्कर्ष नहीं निकाला जा सकता है। हार्डवेयर सभी परीक्षण मामलों में संसाधन की मांग को पर्याप्त रूप से पूरा करता है।

फाइल आंकड़े

प्रति डेटाबेस फ़ाइल औसत IO (पढ़ें और लिखें)

सभी मामलों में, विरल स्तंभों वाले परीक्षणों ने गैर-विरल स्तंभों की तुलना में कम IO (विशेष रूप से लिखते हैं) उत्पन्न किए।

भौतिक आंकड़े इंडेक्स करें
टेस्ट केस पंक्ति गणना कुल पृष्ठ संख्या (संकुल अनुक्रमणिका) कुल स्थान (GB) सीआई (%) में लीफ पृष्ठों के लिए प्रयुक्त औसत स्थान औसत रिकॉर्ड आकार (बाइट्स)
1 10,000,000 10,037,312 76 51.70 4,184.49
2 10,000,000 301,429 2 98.51 237.50
3 10,000,000 10,037,312 76 51.70 4,184.50
4 10,000,000 460,960 3 64.41 237.50
5 10,000,000 1,823,083 13 90.31 1,326.08
6 10,000,000 324,162 2 98.40 255.28
7 10,000,000 3,161,224 24 52.09 1,326.39
8 10,000,000 503,592 3 63.33 255.28

गैर-विरल और विरल तालिकाओं के बीच अंतरिक्ष उपयोग में महत्वपूर्ण अंतर मौजूद हैं। परीक्षण मामलों 1 और 3 को देखते समय यह सबसे उल्लेखनीय है, जहां परीक्षण मामलों 5 और 7 की तुलना में एक निश्चित-लंबाई डेटा प्रकार (INT) का उपयोग किया गया था, जहां एक चर लंबाई डेटा प्रकार का उपयोग किया गया था (VARCHAR(255))। पूर्णांक कॉलम NULL होने पर भी डिस्क स्थान का उपभोग करता है। चर लंबाई वाले कॉलम कम डिस्क स्थान का उपभोग करते हैं, क्योंकि NULL कॉलम के लिए ऑफ़सेट सरणी में केवल दो बाइट्स का उपयोग किया जाता है, और उन NULL कॉलम के लिए कोई बाइट्स नहीं होते हैं जो पंक्ति में अंतिम पॉपुलेटेड कॉलम के बाद होते हैं।

इसके अलावा, एक पंक्ति को सम्मिलित करने और फिर इसे अद्यतन करने की प्रक्रिया केवल पंक्ति (केस 5) को सम्मिलित करने की तुलना में चर-लंबाई कॉलम परीक्षण (केस 7) के लिए विखंडन का कारण बनती है। जब इंसर्ट के बाद अपडेट होता है तो टेबल का आकार लगभग दोगुना हो जाता है, क्योंकि पेज स्प्लिट जो पंक्तियों को अपडेट करते समय होते हैं, जिससे पेज आधा भरा रहता है (बनाम 90% भरा हुआ)।

सारांश

अंत में, हम डिस्क स्थान और IO में एक महत्वपूर्ण कमी देखते हैं जब विरल स्तंभों का उपयोग किया जाता है, और वे हमारे साधारण डेटा संशोधन परीक्षणों में गैर-स्पैस स्तंभों की तुलना में थोड़ा बेहतर प्रदर्शन करते हैं (ध्यान दें कि पुनर्प्राप्ति प्रदर्शन पर भी विचार किया जाना चाहिए; शायद दूसरे का विषय पोस्ट)।

विरल स्तंभों में एक बहुत ही विशिष्ट उपयोग परिदृश्य होता है और कॉलम के डेटा प्रकार और आमतौर पर तालिका में पॉप्युलेट किए जाने वाले स्तंभों की संख्या के आधार पर सहेजे गए डिस्क स्थान की मात्रा की जांच करना महत्वपूर्ण है। हमारे उदाहरण में, हमारे पास 997 विरल स्तंभ थे, और हमने उनमें से केवल 10 को ही आबाद किया था। अधिक से अधिक, उस स्थिति में जहां उपयोग किया गया डेटा प्रकार पूर्णांक था, क्लस्टर इंडेक्स के लीफ स्तर पर एक पंक्ति 188 बाइट्स (आईडी के लिए 4 बाइट्स, नाम के लिए अधिकतम 100 बाइट्स, प्रकार के लिए 4 बाइट्स, और फिर उपभोग करेगी) 10 कॉलम के लिए 80 बाइट्स)। जब 997 कॉलम गैर-स्पैस थे, तब प्रत्येक कॉलम के लिए 4 बाइट आवंटित किए गए थे, भले ही न्यूल हो, इसलिए प्रत्येक पंक्ति पत्ती स्तर पर कम से कम 4,000 बाइट्स थी। हमारे परिदृश्य में, विरल स्तंभ बिल्कुल स्वीकार्य हैं। लेकिन अगर हम INT कॉलम के मानों के साथ 500 या अधिक विरल कॉलम पॉप्युलेट करते हैं, तो स्थान की बचत खो जाती है, और संशोधन का प्रदर्शन अब बेहतर नहीं हो सकता है।

आपके स्तंभों के लिए डेटा प्रकार और कुल में से भरे जाने वाले स्तंभों की अपेक्षित संख्या के आधार पर, आप यह सुनिश्चित करने के लिए समान परीक्षण करना चाह सकते हैं कि, विरल स्तंभों का उपयोग करते समय, सम्मिलित प्रदर्शन और संग्रहण गैर का उपयोग करते समय तुलनीय या बेहतर हैं -विरल स्तंभ। उन मामलों के लिए जब सभी कॉलम पॉप्युलेट नहीं होते हैं, विरल कॉलम निश्चित रूप से विचार करने योग्य होते हैं।


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. टी-एसक्यूएल का उपयोग कर डेटाटाइम का समय प्राप्त करें?

  2. सतत डेटाबेस निगरानी में सुधार के लिए ट्रिक्स

  3. SSMS के माध्यम से SQL सर्वर एजेंट सक्षम करें

  4. शीर्ष 5 सुविधाएँ आपके SQL सर्वर डेटाबेस प्रदर्शन निगरानी प्लेटफ़ॉर्म को प्रदान करने की आवश्यकता है

  5. दिनांक स्ट्रिंग को बदलने और मान्य करने का सबसे अच्छा तरीका