Database
 sql >> डेटाबेस >  >> RDS >> Database

समूहबद्ध चल रहे MAX (या MIN) को बनाए रखना

नोट:यह पोस्ट मूल रूप से केवल हमारी ईबुक, SQL सर्वर के लिए उच्च प्रदर्शन तकनीक, खंड 3 में प्रकाशित हुई थी। आप हमारी ई-पुस्तकों के बारे में यहां जान सकते हैं।

एक आवश्यकता जो मुझे कभी-कभी दिखाई देती है, वह यह है कि ग्राहक द्वारा समूहीकृत आदेशों के साथ एक क्वेरी लौटाई जाए, जो किसी भी आदेश के लिए देखे गए अधिकतम देय राशि ("रनिंग मैक्स") को दिखाती है। तो इन नमूना पंक्तियों की कल्पना करें:

SalesOrderID ग्राहक आईडी आदेश दिनांक कुल देय
12 2 2014-01-01 37.55
23 1 2014-01-02 45.29
31 2 2014-01-03 24.56
32 2 2014-01-04 89.84
37 1 2014-01-05 32.56
44 2 2014-01-06 45.54
55 1 2014-01-07 99.24
62 2 2014-01-08 12.55

नमूना डेटा की कुछ पंक्तियाँ

बताई गई आवश्यकताओं से वांछित परिणाम इस प्रकार हैं - सादे शब्दों में, प्रत्येक ग्राहक के आदेशों को तिथि के अनुसार क्रमबद्ध करें, और प्रत्येक आदेश को सूचीबद्ध करें। यदि उस तिथि तक देखे गए सभी आदेशों के लिए यह उच्चतम TotalDue मान है, तो उस आदेश का कुल प्रिंट करें, अन्यथा पिछले सभी आदेशों से उच्चतम TotalDue मान प्रिंट करें:

SalesOrderID ग्राहक आईडी आदेश दिनांक कुल देय MaxTotalDue
12 1 2014-01-02 45.29 45.29
23 1 2014-01-05 32.56 45.29
31 1 2014-01-07 99.24 99.24
32 2 2014-01-01 37.55 37.55
37 2 2014-01-03 24.56 37.55
44 2 2014-01-04 89.84 89.84
55 2 2014-01-06 45.54 89.84
62 2 2014-01-08 12.55 89.84

नमूना वांछित परिणाम

बहुत से लोग सहज रूप से इसे पूरा करने के लिए कर्सर या लूप का उपयोग करना चाहेंगे, लेकिन ऐसे कई दृष्टिकोण हैं जिनमें इन निर्माणों को शामिल नहीं किया गया है।

सहसंबंधित सबक्वेरी

यह दृष्टिकोण समस्या के लिए सबसे सरल और सबसे सीधा दृष्टिकोण प्रतीत होता है, लेकिन यह बार-बार साबित हुआ है कि स्केल नहीं है, क्योंकि जैसे-जैसे तालिका बड़ी होती जाती है, रीडिंग तेजी से बढ़ती है:

SELECT /* Correlated Subquery */ SalesOrderID, CustomerID, OrderDate, TotalDue,
  MaxTotalDue = (SELECT MAX(TotalDue) 
     FROM Sales.SalesOrderHeader
     WHERE CustomerID = h.CustomerID
     AND SalesOrderID <= h.SalesOrderID)
  FROM Sales.SalesOrderHeader AS h
  ORDER BY CustomerID, SalesOrderID;

यहाँ SQL संतरी योजना एक्सप्लोरर का उपयोग करते हुए AdventureWorks2014 के खिलाफ योजना है:

सहसंबद्ध उपश्रेणी के लिए निष्पादन योजना (विस्तार करने के लिए क्लिक करें)

स्व-संदर्भित क्रॉस लागू करें

यह दृष्टिकोण सिंटैक्स, योजना आकार और पैमाने पर प्रदर्शन के संदर्भ में सहसंबद्ध सबक्वेरी दृष्टिकोण के लगभग समान है।

SELECT /* CROSS APPLY */ h.SalesOrderID, h.CustomerID, h.OrderDate, h.TotalDue, x.MaxTotalDue
FROM Sales.SalesOrderHeader AS h
CROSS APPLY
(
  SELECT MaxTotalDue = MAX(TotalDue)
    FROM Sales.SalesOrderHeader AS i
    WHERE i.CustomerID = h.CustomerID
    AND i.SalesOrderID <= h.SalesOrderID
) AS x
ORDER BY h.CustomerID, h.SalesOrderID;

योजना काफी हद तक सहसंबद्ध उपश्रेणी योजना के समान है, केवल एक प्रकार का स्थान होने का अंतर है:

क्रॉस एप्लाई के लिए निष्पादन योजना (विस्तार करने के लिए क्लिक करें)

पुनरावर्ती CTE

पर्दे के पीछे, यह लूप का उपयोग करता है, लेकिन जब तक हम वास्तव में इसे नहीं चलाते हैं, तब तक हम ऐसा दिखावा कर सकते हैं कि यह नहीं है (हालांकि यह आसानी से कोड का सबसे जटिल टुकड़ा है जिसे मैं इस विशेष समस्या को हल करने के लिए लिखना चाहता हूं):

;WITH /* Recursive CTE */ cte AS 
(
  SELECT  SalesOrderID, CustomerID, OrderDate, TotalDue, MaxTotalDue 
    FROM 
	(
	  SELECT SalesOrderID, CustomerID, OrderDate, TotalDue, MaxTotalDue = TotalDue, 
	    rn = ROW_NUMBER() OVER (PARTITION BY CustomerID ORDER BY SalesOrderID)
	  FROM Sales.SalesOrderHeader
	) AS x
  WHERE rn = 1
  UNION ALL
  SELECT r.SalesOrderID, r.CustomerID, r.OrderDate, r.TotalDue,
    MaxTotalDue = CASE 
	  WHEN r.TotalDue > cte.MaxTotalDue THEN r.TotalDue 
	  ELSE cte.MaxTotalDue 
	END
  FROM cte
  CROSS APPLY
  (
    SELECT  SalesOrderID, CustomerID, OrderDate, TotalDue,
      rn = ROW_NUMBER() OVER (PARTITION BY CustomerID ORDER BY SalesOrderID)
    FROM Sales.SalesOrderHeader AS h
    WHERE h.CustomerID = cte.CustomerID
    AND h.SalesOrderID > cte.SalesOrderID
  ) AS r
  WHERE r.rn = 1
)
SELECT SalesOrderID, CustomerID, OrderDate, TotalDue, MaxTotalDue
FROM cte
ORDER BY CustomerID, SalesOrderID
OPTION (MAXRECURSION 0);

आप तुरंत देख सकते हैं कि योजना पिछले दो की तुलना में अधिक जटिल है, जो कि अधिक जटिल प्रश्न को देखते हुए आश्चर्यजनक नहीं है:

रिकर्सिव सीटीई के लिए निष्पादन योजना (विस्तार करने के लिए क्लिक करें)

कुछ खराब अनुमानों के कारण, हम एक साथ की खोज के साथ एक इंडेक्स की तलाश करते हैं, जिसे शायद दोनों को एक ही स्कैन से बदल दिया जाना चाहिए था, और हमें एक सॉर्ट ऑपरेशन भी मिलता है जिसे अंततः tempdb पर फैलाने की आवश्यकता होती है (आप इसे टूलटिप में देख सकते हैं) यदि आप चेतावनी आइकन के साथ सॉर्ट ऑपरेटर पर होवर करते हैं):

MAX() ओवर (पंक्तियां अनबाउंडेड)

यह एक समाधान केवल SQL Server 2012 और उच्चतर में उपलब्ध है, क्योंकि यह विंडो फ़ंक्शंस के लिए नए पेश किए गए एक्सटेंशन का उपयोग करता है।

SELECT /* MAX() OVER() */ SalesOrderID, CustomerID, OrderDate, TotalDue,
  MaxTotalDue = MAX(TotalDue) OVER 
  (
    PARTITION BY CustomerID ORDER BY SalesOrderID 
    ROWS UNBOUNDED PRECEDING
  )
FROM Sales.SalesOrderHeader
ORDER BY CustomerID, SalesOrderID;

योजना वास्तव में दिखाती है कि यह अन्य सभी की तुलना में बेहतर क्यों है; इसमें केवल एक क्लस्टर इंडेक्स स्कैन ऑपरेशन होता है, दो के विपरीत (या पुनरावर्ती सीटीई के मामले में स्कैन और सीक + लुकअप का खराब विकल्प):

MAX() OVER() के लिए निष्पादन योजना (विस्तार करने के लिए क्लिक करें)

प्रदर्शन तुलना

योजनाएं निश्चित रूप से हमें विश्वास दिलाती हैं कि नया MAX() OVER() SQL सर्वर 2012 में क्षमता एक वास्तविक विजेता है, लेकिन मूर्त रनटाइम मेट्रिक्स के बारे में कैसे? यहां बताया गया है कि निष्पादन की तुलना कैसे की जाती है:

पहले दो प्रश्न लगभग समान थे; जबकि इस मामले में CROSS APPLY एक छोटे से अंतर से समग्र अवधि के संदर्भ में बेहतर था, सहसंबद्ध उपश्रेणी कभी-कभी इसके बजाय इसे थोड़ा पीछे कर देती है। रिकर्सिव सीटीई हर बार काफी धीमा होता है, और आप इसमें योगदान करने वाले कारकों को देख सकते हैं - अर्थात्, खराब अनुमान, भारी मात्रा में रीड, कुंजी लुकअप, और अतिरिक्त सॉर्ट ऑपरेशन। और जैसा कि मैंने पहले रनिंग टोटल के साथ प्रदर्शित किया है, SQL Server 2012 समाधान लगभग हर पहलू में बेहतर है।

निष्कर्ष

यदि आप SQL सर्वर 2012 या उससे अधिक पर हैं, तो आप निश्चित रूप से SQL सर्वर 2005 में पहली बार पेश किए गए विंडोिंग फ़ंक्शंस के सभी एक्सटेंशन से परिचित होना चाहते हैं - वे कोड को फिर से देखने पर आपको कुछ गंभीर प्रदर्शन बढ़ा सकते हैं जो अभी भी चल रहा है " पुराना तरीका।" यदि आप इनमें से कुछ नई क्षमताओं के बारे में अधिक जानना चाहते हैं, तो मैं इट्ज़िक बेन-गण की पुस्तक, माइक्रोसॉफ्ट एसक्यूएल सर्वर 2012 हाई-परफॉर्मेंस टी-एसक्यूएल यूजिंग विंडो फंक्शंस की अत्यधिक अनुशंसा करता हूं।

यदि आप अभी तक SQL Server 2012 पर नहीं हैं, तो कम से कम इस परीक्षण में, आप CROSS APPLY के बीच चयन कर सकते हैं और सहसंबद्ध सबक्वेरी। हमेशा की तरह, आपको अपने हार्डवेयर पर अपने डेटा के विरुद्ध विभिन्न विधियों का परीक्षण करना चाहिए।


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. निष्पादन योजनाओं पर विखंडन का प्रभाव

  2. क्रिसमस उपहार वितरित करना:सांता का डेटा मॉडल

  3. MuleSoft ने उन्नत API एकीकरण के लिए GraphQL को अपनाया

  4. पबनब के कार्यों के लिए एक गाइड

  5. समानांतर योजनाएँ कैसे शुरू होती हैं - भाग 1