Database
 sql >> डेटाबेस >  >> RDS >> Database

नमूना आकार और अद्यतन सांख्यिकी की अवधि:क्या इससे कोई फर्क पड़ता है?

SQL सर्वर में बनाए गए किसी भी नए डेटाबेस के लिए, स्वत:अद्यतन सांख्यिकी विकल्प के लिए डिफ़ॉल्ट मान सक्षम है . मुझे संदेह है कि अधिकांश डीबीए सक्षम विकल्प छोड़ देते हैं, क्योंकि यह अनुकूलक को अमान्य होने पर स्वचालित रूप से आंकड़ों को अपडेट करने की अनुमति देता है, और आमतौर पर इसे सक्षम छोड़ने की अनुशंसा की जाती है। जब इंडेक्स को फिर से बनाया जाता है तो आंकड़े भी अपडेट किए जाते हैं, और हालांकि ऑटो अपडेट स्टैटिस्टिक्स ऑप्शन और इंडेक्स रीबिल्ड के माध्यम से आंकड़ों को अच्छी तरह से प्रबंधित करना असामान्य नहीं है, समय-समय पर एक डीबीए को अपडेट करने के लिए एक नियमित नौकरी स्थापित करना आवश्यक हो सकता है। आँकड़ा, या आँकड़ों का समूह।

आंकड़ों के कस्टम प्रबंधन में अक्सर अद्यतन सांख्यिकी कमांड शामिल होता है, जो काफी सौम्य लगता है। इसे किसी तालिका या अनुक्रमित दृश्य के सभी आँकड़ों के लिए या किसी विशिष्ट आँकड़ों के लिए चलाया जा सकता है। डिफ़ॉल्ट नमूने का उपयोग किया जा सकता है, एक विशिष्ट नमूना दर या नमूने के लिए पंक्तियों की संख्या निर्दिष्ट की जा सकती है, या आप उसी नमूना मान का उपयोग कर सकते हैं जो पहले उपयोग किया गया था। यदि किसी तालिका या अनुक्रमित दृश्य के लिए आँकड़े अद्यतन किए जाते हैं, तो आप सभी आँकड़े, केवल अनुक्रमणिका आँकड़े, या केवल स्तंभ आँकड़े अद्यतन करना चुन सकते हैं। और अंत में, आप किसी आंकड़े के लिए स्वत:अद्यतन आंकड़े विकल्प को अक्षम कर सकते हैं।

अधिकांश डीबीए के लिए, सबसे बड़ा विचार कब . हो सकता है अद्यतन सांख्यिकी विवरण चलाने के लिए। लेकिन डीबीए यह भी तय करते हैं, होशपूर्वक या नहीं, अद्यतन के लिए नमूना आकार। चयनित नमूना आकार वास्तविक अद्यतन के प्रदर्शन के साथ-साथ प्रश्नों के प्रदर्शन को भी प्रभावित कर सकता है।

नमूना आकार के प्रभावों को समझना

अद्यतन सांख्यिकी के लिए डिफ़ॉल्ट नमूना आकार एक गैर-रेखीय एल्गोरिथ्म से आता है, और नमूना आकार कम हो जाता है क्योंकि तालिका का आकार बड़ा हो जाता है, जैसा कि जो सैक ने अपनी पोस्ट, ऑटो-अपडेट आँकड़े डिफ़ॉल्ट नमूना परीक्षण में दिखाया था। कुछ मामलों में, नमूना का आकार इतना बड़ा नहीं हो सकता है कि पर्याप्त रोचक जानकारी प्राप्त कर सके, या दाएं सूचना, सांख्यिकी हिस्टोग्राम के लिए, जैसा कि कॉनर कनिंघम ने अपने सांख्यिकी नमूना दर पोस्ट में उल्लेख किया है। यदि डिफ़ॉल्ट नमूना एक अच्छा हिस्टोग्राम नहीं बनाता है, तो डीबीए फुलस्कैन (तालिका या अनुक्रमित दृश्य में सभी पंक्तियों को स्कैन करना) तक उच्च नमूना दर के साथ आंकड़ों को अपडेट करना चुन सकता है। लेकिन जैसा कि कॉनर ने अपनी पोस्ट में उल्लेख किया है, अधिक पंक्तियों को स्कैन करना एक लागत पर आता है, और डीबीए को यह तय करने के लिए चुनौती दी जाती है कि क्या "सर्वश्रेष्ठ" हिस्टोग्राम को संभव बनाने और बनाने के लिए फुलस्कैन चलाया जाए, या प्रदर्शन प्रभाव को कम करने के लिए एक छोटे प्रतिशत का नमूना लिया जाए। अद्यतन।

यह समझने और समझने के लिए कि किस बिंदु पर एक नमूना फुलस्कैन से अधिक समय लेता है, मैंने निम्नलिखित कथनों को SalesOrderDetail तालिका की प्रतियों के विरुद्ध चलाया, जिन्हें जोनाथन केहैयस की स्क्रिप्ट का उपयोग करके बड़ा किया गया था:

विवरण आईडी अद्यतन सांख्यिकी विवरण
1 अद्यतन आंकड़े [बिक्री]। [SalesOrderDetailEnlarged] फुलस्कैन के साथ;
2 अद्यतन आंकड़े [बिक्री]।[SalesOrderDetailEnlarged];
3 अद्यतन आंकड़े [बिक्री]। [SalesOrderDetailEnlarged] नमूना 10 प्रतिशत के साथ;
4 अद्यतन आंकड़े [बिक्री]। [SalesOrderDetailEnlarged] नमूना 25 प्रतिशत के साथ;
5 अद्यतन आंकड़े [बिक्री]। [SalesOrderDetailEnlarged] नमूना 50 प्रतिशत के साथ;
6 अद्यतन आंकड़े [बिक्री]। [SalesOrderDetailEnlarged] नमूना 75 प्रतिशत के साथ;


मेरे पास निम्नलिखित विशेषताओं के साथ SalesOrderDetailबढ़ी हुई तालिका की तीन प्रतियां थीं*:

पंक्ति गणना पेज की संख्या MAXDOP अधिकतम मेमोरी <वें valign="top" चौड़ाई="106">संग्रहण मशीन
23,899,449 363,284 4 8GB SSD_1 लैपटॉप
607,312,902 7,757,200 16 54GB SSD_2 टेस्ट सर्वर
607,312,902 7,757,200 16 54GB 15K टेस्ट सर्वर


*हार्डवेयर के बारे में अतिरिक्त विवरण इस पोस्ट के अंत में हैं।

तालिका की सभी प्रतियों में निम्नलिखित आँकड़े थे, और तीन सूचकांक आँकड़ों में से किसी में भी कॉलम शामिल नहीं थे:

सांख्यिकीय <थ चौड़ाई="68">प्रकार कुंजी में कॉलम
PK_SalesOrderDetailEnlarged_SalesOrderID_SalesOrderDetailID सूचकांक SalesOrderID, SalesOrderDetailID
AK_SalesOrderDetailEnlarged_rowguid सूचकांक rowguid
IX_SalesOrderDetailEnlarged_ProductID सूचकांक ProductId
user_CarrierTrackingNumber कॉलम CarrierTrackingNumber


मैंने उपरोक्त अद्यतन सांख्यिकी विवरण को अपने लैपटॉप पर SalesOrderDetailEnlarged तालिका के विरुद्ध चार बार और TestServer पर SalesOrderDetailEnlarged तालिकाओं के विरुद्ध दो बार चलाया। स्टेटमेंट हर बार रैंडम क्रम में चलाए जाते थे, और प्रत्येक अपडेट स्टेटमेंट से पहले प्रोसेस कैश और बफर कैशे को क्लियर कर दिया जाता था। बयानों के प्रत्येक सेट (औसत) के लिए अवधि और tempdb उपयोग नीचे दिए गए ग्राफ़ में हैं:


औसत अवधि - SalesOrderDetailEnlarged के सभी आंकड़े अपडेट करें


tempdb उपयोग - SalesOrderDetailEnlarged के सभी आंकड़े अपडेट करें

23 मिलियन पंक्ति तालिका के लिए अवधि सभी तीन मिनट से कम थी, और अगले भाग में अधिक विस्तार से वर्णित हैं। SSD_2 डिस्क पर तालिका के लिए, FULLSCAN स्टेटमेंट में 1492 सेकंड (लगभग 25 मिनट) लगे और 25% सैंपल वाले अपडेट में 2051 सेकंड (34 मिनट से अधिक) लगे। इसके विपरीत, 15K डिस्क पर, FULLSCAN स्टेटमेंट में 2864 सेकंड (47 मिनट से अधिक) लगे और 25% सैंपल के साथ अपडेट में 2147 सेकंड (लगभग 36 मिनट) लगे - FULLSCAN के समय से भी कम। हालांकि, 50% नमूने के साथ अपडेट में 4296 सेकंड (71 मिनट से अधिक) लगे।

Tempdb का उपयोग बहुत अधिक सुसंगत है, नमूना आकार बढ़ने के साथ-साथ एक स्थिर वृद्धि दिखा रहा है, और 25% और 50% के बीच कहीं फुलस्कैन की तुलना में अधिक tempdb स्थान का उपयोग कर रहा है। यहाँ जो उल्लेखनीय है वह यह है कि अद्यतन आँकड़े करता है उपयोग करें tempdb, जो याद रखना महत्वपूर्ण है जब आप SQL सर्वर वातावरण के लिए tempdb का आकार बदल रहे हैं। अद्यतन सांख्यिकी BOL प्रविष्टि में Tempdb उपयोग का उल्लेख किया गया है:

<ब्लॉककोट>

अद्यतन आँकड़े, आंकड़ों के निर्माण के लिए पंक्तियों के नमूने को क्रमबद्ध करने के लिए tempdb का उपयोग कर सकते हैं। ”

और प्रभाव को लिंची शी की पोस्ट, प्रदर्शन प्रभाव:tempdb और अद्यतन आँकड़े में प्रलेखित किया गया है। हालाँकि, यह ऐसा कुछ नहीं है जिसका उल्लेख हमेशा टेम्पर्ड साइज़िंग चर्चाओं के दौरान किया जाता है। यदि आपके पास बड़े टेबल हैं और फुलस्कैन या उच्च नमूना मानों के साथ अद्यतन करते हैं, तो tempdb उपयोग के बारे में जागरूक रहें।

चुनिंदा अपडेट का प्रदर्शन

मैंने अगली बार तालिका पर अन्य आँकड़ों के लिए अद्यतन सांख्यिकी विवरण का परीक्षण करने का निर्णय लिया, लेकिन अपने परीक्षणों को 23 मिलियन पंक्तियों वाली तालिका की प्रतिलिपि तक सीमित कर दिया। अद्यतन सांख्यिकी विवरण के उपरोक्त छह रूपांतरों को निम्नलिखित व्यक्तिगत आंकड़ों के लिए चार बार दोहराया गया और फिर संपूर्ण तालिका के लिए अद्यतन के साथ तुलना की गई:

  • PK_SalesOrderDetailEnlarged_SalesOrderID_SalesOrderDetailID
  • IX_SalesOrderDetailEnlarged_ProductID
  • user_CarrierTrackingNumber

मेरे लैपटॉप पर उपरोक्त कॉन्फ़िगरेशन के साथ सभी परीक्षण चलाए गए थे, और परिणाम नीचे दिए गए ग्राफ़ में हैं:


अद्यतन आंकड़ों की औसत अवधि - सभी आंकड़े बनाम चयनित

जैसा कि अपेक्षित था, तालिका के सभी आंकड़ों को अपडेट करने की तुलना में किसी एक आंकड़े के अपडेट में कम समय लगा। जिस मान पर नमूना अपडेट किया गया था, उसमें FULLSCAN की भिन्नता से अधिक समय लगा:

अद्यतन विवरण <थ चौड़ाई="213">फुलस्कैन अवधि (अवधि) <थ चौड़ाई="213">पहला अद्यतन जिसमें अधिक समय लगा
संपूर्ण तालिका 62 50% - 110 सेकंड
संकुल अनुक्रमणिका 17 75% - 26 सेकंड
गैर-संकुल सूचकांक 10 25% - 19 सेकंड
उपयोगकर्ता द्वारा बनाए गए आंकड़े 26 50% - 28 सेकंड

निष्कर्ष

इस डेटा और 607 मिलियन पंक्ति तालिकाओं से FULLSCAN डेटा के आधार पर, कोई विशिष्ट नहीं है टिपिंग बिंदु जहां एक नमूना अद्यतन FULLSCAN से अधिक समय लेता है; वह बिंदु तालिका के आकार और उपलब्ध संसाधनों पर निर्भर है। लेकिन डेटा अभी भी सार्थक है क्योंकि यह दर्शाता है कि है एक बिंदु जहां एक नमूना मूल्य को फुलस्कैन की तुलना में पकड़ने में अधिक समय लग सकता है। यह फिर से आपके डेटा को जानने के लिए नीचे आता है। यह न केवल यह समझने के लिए महत्वपूर्ण है कि क्या किसी तालिका को आंकड़ों के कस्टम प्रबंधन की आवश्यकता है, बल्कि एक उपयोगी हिस्टोग्राम बनाने और संसाधन उपयोग को अनुकूलित करने के लिए आदर्श नमूना आकार को भी समझना है।

विनिर्देश

लैपटॉप विनिर्देश:डेल M6500, 1 Intel i7 (2.13GHz 4 कोर और HT सक्षम है इसलिए 8 तार्किक कोर), 32 GB मेमोरी, Windows 7, SQL Server 2012 SP1 (11.0.3128.0 x64), 265GB सैमसंग SSD पर संग्रहीत डेटाबेस फ़ाइलें PM810

टेस्ट सर्वर विनिर्देश:डेल R720, 2 इंटेल E5-2670 (2.6GHz 8 कोर और HT सक्षम है इसलिए 16 लॉजिकल कोर प्रति सॉकेट), 64 जीबी मेमोरी, विंडोज 2012, SQL सर्वर 2012 SP1 (11.0.3339.0 x64), के लिए डेटाबेस फाइलें एक तालिका दो 640GB फ़्यूज़न-आईओ डुओ एमएलसी कार्ड पर स्थित है, दूसरी तालिका के लिए डेटाबेस फ़ाइलें RAID5 सरणी में नौ 15K RPM डिस्क पर हैं


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. उच्च CLR_MANUAL_EVENT प्रतीक्षा को ट्रैक करना

  2. एक रियल एस्टेट एजेंसी डेटा मॉडल

  3. Exachk उपयोगिता का उपयोग करके Exadata पर स्वास्थ्य जांच

  4. अनुक्रमण कैसे काम करता है

  5. वां उच्चतम वेतन