ANY
एग्रीगेट ऐसा कुछ नहीं है जिसे हम सीधे ट्रांजैक्ट एसक्यूएल में लिख सकते हैं। यह केवल एक आंतरिक विशेषता है जिसका उपयोग क्वेरी अनुकूलक और निष्पादन इंजन द्वारा किया जाता है।
मैं व्यक्तिगत रूप से ANY
का काफी शौकीन हूं कुल मिलाकर, इसलिए यह जानना थोड़ा निराशाजनक था कि यह काफी मौलिक तरीके से टूटा हुआ है। मैं यहां जिस 'टूटे' स्वाद की बात कर रहा हूं, वह गलत-परिणाम वाली किस्म है।
इस पोस्ट में, मैं दो विशेष स्थानों पर एक नज़र डालता हूँ जहाँ ANY
समुच्चय सामान्य रूप से दिखाई देता है, गलत परिणाम की समस्या प्रदर्शित करता है, और जहां आवश्यक हो समाधान सुझाता है।
पृष्ठभूमि के लिए ANY
कुल, कृपया मेरी पिछली पोस्ट देखें अनिर्दिष्ट प्रश्न योजनाएं:कोई भी कुल।
1. प्रति समूह क्वेरी एक पंक्ति
यह एक बहुत ही प्रसिद्ध समाधान के साथ सबसे आम दिन-आज की क्वेरी आवश्यकताओं में से एक होना चाहिए। आप शायद इस तरह की क्वेरी हर दिन लिखते हैं, स्वचालित रूप से पैटर्न का पालन करते हुए, वास्तव में इसके बारे में सोचे बिना।
विचार ROW_NUMBER
. का उपयोग करके पंक्तियों के इनपुट सेट को क्रमांकित करना है विंडो फ़ंक्शन, ग्रुपिंग कॉलम या कॉलम द्वारा विभाजित। यह एक सामान्य तालिका अभिव्यक्ति . में लिपटा हुआ है या व्युत्पन्न तालिका , और उन पंक्तियों तक फ़िल्टर किया जाता है जहां परिकलित पंक्ति संख्या एक के बराबर होती है। चूंकि ROW_NUMBER
प्रत्येक समूह के लिए एक पर पुनरारंभ होता है, यह हमें प्रति समूह आवश्यक एक पंक्ति देता है।
उस सामान्य पैटर्न में कोई समस्या नहीं है। प्रति समूह क्वेरी एक पंक्ति का प्रकार जो ANY
. के अधीन है समग्र समस्या वह है जहां हम इस बात की परवाह नहीं करते कि कौन सी विशेष पंक्ति चुनी गई है प्रत्येक समूह से।
उस स्थिति में, यह स्पष्ट नहीं है कि अनिवार्य ORDER BY
. में किस कॉलम का उपयोग किया जाना चाहिए ROW_NUMBER
. का खंड खिड़की समारोह। आखिरकार, हम स्पष्ट रूप से परवाह नहीं करते कौन सी पंक्ति चुनी गई है। PARTITION BY
का पुन:उपयोग करना एक सामान्य तरीका है ORDER BY
में कॉलम (स्तंभों) खंड। यहीं समस्या हो सकती है।
उदाहरण
आइए एक खिलौना डेटा सेट का उपयोग करके एक उदाहरण देखें:
CREATE TABLE #Data ( c1 integer NULL, c2 integer NULL, c3 integer NULL ); INSERT #Data (c1, c2, c3) VALUES -- Group 1 (1, NULL, 1), (1, 1, NULL), (1, 111, 111), -- Group 2 (2, NULL, 2), (2, 2, NULL), (2, 222, 222);
आवश्यकता प्रत्येक समूह से डेटा की किसी एक पूरी पंक्ति को वापस करने की है, जहां समूह सदस्यता को कॉलम c1
में मान द्वारा परिभाषित किया गया है ।
ROW_NUMBER
का अनुसरण कर रहे हैं पैटर्न, हम निम्नलिखित की तरह एक प्रश्न लिख सकते हैं (ORDER BY
. पर ध्यान दें ROW_NUMBER
. का खंड विंडो फ़ंक्शन PARTITION BY
से मेल खाता है खंड):
WITH Numbered AS ( SELECT D.*, rn = ROW_NUMBER() OVER ( PARTITION BY D.c1 ORDER BY D.c1) FROM #Data AS D ) SELECT N.c1, N.c2, N.c3 FROM Numbered AS N WHERE N.rn = 1;
जैसा कि प्रस्तुत किया गया है, यह क्वेरी सही परिणामों के साथ सफलतापूर्वक निष्पादित होती है। परिणाम तकनीकी रूप से गैर-नियतात्मक हैं चूंकि SQL सर्वर प्रत्येक समूह में पंक्तियों में से किसी एक को वैध रूप से वापस कर सकता है। फिर भी, यदि आप इस क्वेरी को स्वयं चलाते हैं, तो आपको वही परिणाम दिखाई देने की संभावना है जो मैं करता हूं:
निष्पादन योजना उपयोग किए गए SQL सर्वर के संस्करण पर निर्भर करती है, और डेटाबेस संगतता स्तर पर निर्भर नहीं करती है।
SQL सर्वर 2014 और इससे पहले की योजना है:
SQL सर्वर 2016 या बाद के संस्करण के लिए, आप देखेंगे:
दोनों प्लान सुरक्षित हैं, लेकिन अलग-अलग कारणों से। विभिन्न प्रकार योजना में एक ANY
शामिल है समुच्चय, लेकिन विशिष्ट प्रकार ऑपरेटर कार्यान्वयन बग प्रकट नहीं करता है।
अधिक जटिल SQL सर्वर 2016+ योजना ANY
. का उपयोग नहीं करती है कुल मिलाकर। क्रमबद्ध करें पंक्ति क्रमांकन संचालन के लिए आवश्यक क्रम में पंक्तियों को रखता है। सेगमेंट ऑपरेटर प्रत्येक नए समूह की शुरुआत में एक ध्वज सेट करता है। अनुक्रम प्रोजेक्ट पंक्ति संख्या की गणना करता है। अंत में, फ़िल्टर ऑपरेटर केवल उन्हीं पंक्तियों को पास करता है जिनकी गणना की गई पंक्ति संख्या एक है।
बग
इस डेटा सेट के साथ गलत परिणाम प्राप्त करने के लिए, हमें SQL सर्वर 2014 या इससे पहले के संस्करण और ANY
का उपयोग करने की आवश्यकता है एग्रीगेट को स्ट्रीम एग्रीगेट . में लागू करने की ज़रूरत है या उत्सुक हैश एग्रीगेट ऑपरेटर (फ्लो डिस्टिंक्ट हैश मैच एग्रीगेट बग उत्पन्न नहीं करता)।
ऑप्टिमाइज़र को स्ट्रीम एग्रीगेट . चुनने के लिए प्रोत्साहित करने का एक तरीका विभिन्न प्रकार . के बजाय कॉलम c1
. द्वारा ऑर्डरिंग प्रदान करने के लिए क्लस्टर इंडेक्स जोड़ना है :
CREATE CLUSTERED INDEX c ON #Data (c1);
उस परिवर्तन के बाद, निष्पादन योजना बन जाती है:
ANY
समुच्चय गुणों . में दृश्यमान हैं विंडो जब स्ट्रीम एग्रीगेट ऑपरेटर चुना गया है:
क्वेरी का परिणाम है:
यह गलत है . SQL सर्वर ने उन पंक्तियों को लौटा दिया है जो मौजूद नहीं हैं स्रोत डेटा में। कोई स्रोत पंक्तियाँ नहीं हैं जहाँ c2 = 1
और c3 = 1
उदाहरण के लिए। एक अनुस्मारक के रूप में, स्रोत डेटा है:
निष्पादन योजना गलती से अलग की गणना करती है ANY
c2
. के लिए समुच्चय और c3
कॉलम, नल की अनदेखी। प्रत्येक समुच्चय स्वतंत्र रूप से पहला गैर-शून्य लौटाता है मान इसका सामना करता है, एक परिणाम देता है जहां c2
. के लिए मान और c3
विभिन्न स्रोत पंक्तियों . से आते हैं . यह मूल SQL क्वेरी विनिर्देशन का अनुरोध नहीं है।
वही गलत परिणाम साथ या बिना उत्पन्न किया जा सकता है एक OPTION (HASH GROUP)
adding जोड़कर संकुल अनुक्रमणिका ईजर हैश एग्रीगेट . के साथ एक योजना तैयार करने का संकेत स्ट्रीम एग्रीगेट . के बजाय ।
शर्तें
यह समस्या तभी हो सकती है जब एक से अधिक ANY
समुच्चय मौजूद हैं, और समेकित डेटा में शून्य है। जैसा कि नोट किया गया है, समस्या केवल स्ट्रीम एग्रीगेट . को प्रभावित करती है और उत्सुक हैश एग्रीगेट ऑपरेटरों; अलग क्रमबद्ध करें और विभिन्न प्रवाह प्रभावित नहीं हैं।
SQL सर्वर 2016 आगे कई ANY
introducing शुरू करने से बचने का प्रयास करता है स्रोत कॉलम अशक्त होने पर किसी एक पंक्ति प्रति समूह पंक्ति क्रमांकन क्वेरी पैटर्न के लिए समुच्चय। जब ऐसा होता है, तो निष्पादन योजना में सेगमेंट . होगा , अनुक्रम परियोजना , और फ़िल्टर करें कुल के बजाय ऑपरेटरों। यह योजना आकार हमेशा सुरक्षित है, क्योंकि कोई ANY
नहीं है समुच्चय का उपयोग किया जाता है।
SQL Server 2016+ में बग को पुन:प्रस्तुत करना
SQL सर्वर ऑप्टिमाइज़र यह पता लगाने में सही नहीं है कि एक कॉलम मूल रूप से NOT NULL
होने के लिए बाध्य है। डेटा हेरफेर के माध्यम से अभी भी एक शून्य मध्यवर्ती मान उत्पन्न कर सकता है।
इसे पुन:पेश करने के लिए, हम एक तालिका से शुरू करेंगे जहां सभी कॉलम NOT NULL
. के रूप में घोषित किए गए हैं :
IF OBJECT_ID(N'tempdb..#Data', N'U') IS NOT NULL BEGIN DROP TABLE #Data; END; CREATE TABLE #Data ( c1 integer NOT NULL, c2 integer NOT NULL, c3 integer NOT NULL ); CREATE CLUSTERED INDEX c ON #Data (c1); INSERT #Data (c1, c2, c3) VALUES -- Group 1 (1, 1, 1), (1, 2, 2), (1, 3, 3), -- Group 2 (2, 1, 1), (2, 2, 2), (2, 3, 3);
हम इस डेटा सेट से कई तरह से नल उत्पन्न कर सकते हैं, जिनमें से अधिकांश को ऑप्टिमाइज़र सफलतापूर्वक पता लगा सकता है, और इसलिए ANY
शुरू करने से बचें। अनुकूलन के दौरान समुच्चय।
रडार के नीचे खिसकने वाले नल को जोड़ने का एक तरीका नीचे दिखाया गया है:
SELECT D.c1, OA1.c2, OA2.c3 FROM #Data AS D OUTER APPLY (SELECT D.c2 WHERE D.c2 <> 1) AS OA1 OUTER APPLY (SELECT D.c3 WHERE D.c3 <> 2) AS OA2;
वह क्वेरी निम्न आउटपुट उत्पन्न करती है:
अगला कदम उस क्वेरी विनिर्देश का उपयोग मानक "किसी भी एक पंक्ति प्रति समूह" क्वेरी के स्रोत डेटा के रूप में करना है:
WITH SneakyNulls AS ( -- Introduce nulls the optimizer can't see SELECT D.c1, OA1.c2, OA2.c3 FROM #Data AS D OUTER APPLY (SELECT D.c2 WHERE D.c2 <> 1) AS OA1 OUTER APPLY (SELECT D.c3 WHERE D.c3 <> 2) AS OA2 ), Numbered AS ( SELECT D.c1, D.c2, D.c3, rn = ROW_NUMBER() OVER ( PARTITION BY D.c1 ORDER BY D.c1) FROM SneakyNulls AS D ) SELECT N.c1, N.c2, N.c3 FROM Numbered AS N WHERE N.rn = 1;
किसी भी संस्करण . पर SQL सर्वर का, जो निम्न योजना तैयार करता है:
स्ट्रीम एग्रीगेट एकाधिक ANY
शामिल हैं समुच्चय, और परिणाम गलत . है . लौटाई गई पंक्तियों में से कोई भी स्रोत डेटा सेट में दिखाई नहीं देती है:
db<>fiddle ऑनलाइन डेमो
समाधान
इस बग के ठीक होने तक एकमात्र पूर्ण विश्वसनीय समाधान उस पैटर्न से बचना है जहां ROW_NUMBER
ORDER BY
. में एक ही कॉलम है क्लॉज जैसा कि PARTITION BY
में है खंड।
जब हमें परवाह नहीं है किससे प्रत्येक समूह से एक पंक्ति का चयन किया जाता है, यह दुर्भाग्यपूर्ण है कि ORDER BY
खंड की बिल्कुल जरूरत है। समस्या को दूर करने का एक तरीका ORDER BY @@SPID
जैसे रन टाइम स्थिरांक का उपयोग करना है विंडो फ़ंक्शन में।
2. गैर-नियतात्मक अद्यतन
एकाधिक ANY
के साथ समस्या अशक्त इनपुट पर समुच्चय प्रति समूह क्वेरी पैटर्न किसी एक पंक्ति तक सीमित नहीं है। क्वेरी ऑप्टिमाइज़र एक आंतरिक ANY
पेश कर सकता है कई परिस्थितियों में एकत्र। उन मामलों में से एक गैर-नियतात्मक अद्यतन है।
एक गैर-नियतात्मक अद्यतन वह जगह है जहाँ कथन इस बात की गारंटी नहीं देता है कि प्रत्येक लक्ष्य पंक्ति को अधिकतम एक बार अद्यतन किया जाएगा। दूसरे शब्दों में, कम से कम एक लक्ष्य पंक्ति के लिए कई स्रोत पंक्तियाँ हैं। दस्तावेज़ीकरण इस बारे में स्पष्ट रूप से चेतावनी देता है:
अपडेट ऑपरेशन के लिए मानदंड प्रदान करने के लिए FROM क्लॉज को निर्दिष्ट करते समय सावधानी बरतें।एक अद्यतन विवरण के परिणाम अपरिभाषित होते हैं यदि कथन में एक FROM खंड शामिल है जो इस तरह से निर्दिष्ट नहीं है कि अद्यतन किए जाने वाले प्रत्येक स्तंभ घटना के लिए केवल एक मान उपलब्ध है, कि अगर अद्यतन विवरण नियतात्मक नहीं है।
एक गैर-नियतात्मक अद्यतन को संभालने के लिए, ऑप्टिमाइज़र पंक्तियों को एक कुंजी (इंडेक्स या आरआईडी) द्वारा समूहित करता है और ANY
लागू करता है शेष स्तंभों के लिए समुच्चय। कई उम्मीदवारों में से एक पंक्ति का चयन करने और अद्यतन करने के लिए उस पंक्ति के मानों का उपयोग करने का मूल विचार है। पिछले ROW_NUMBER
. से स्पष्ट समानताएं हैं समस्या है, इसलिए इसमें कोई आश्चर्य की बात नहीं है कि गलत अपडेट प्रदर्शित करना काफी आसान है।
पिछले मुद्दे के विपरीत, SQL सर्वर वर्तमान में कोई विशेष कदम नहीं लेता है एकाधिक ANY
से बचने के लिए गैर-नियतात्मक अद्यतन करते समय अशक्त स्तंभों पर एकत्र करता है। इसलिए निम्नलिखित सभी SQL सर्वर संस्करणों से संबंधित है , SQL सर्वर 2019 CTP 3.0 सहित।
उदाहरण
DECLARE @Target table ( c1 integer PRIMARY KEY, c2 integer NOT NULL, c3 integer NOT NULL ); DECLARE @Source table ( c1 integer NULL, c2 integer NULL, c3 integer NULL, INDEX c CLUSTERED (c1) ); INSERT @Target (c1, c2, c3) VALUES (1, 0, 0); INSERT @Source (c1, c2, c3) VALUES (1, 2, NULL), (1, NULL, 3); UPDATE T SET T.c2 = S.c2, T.c3 = S.c3 FROM @Target AS T JOIN @Source AS S ON S.c1 = T.c1; SELECT * FROM @Target AS T;
db<>fiddle ऑनलाइन डेमो
तार्किक रूप से, इस अद्यतन को हमेशा एक त्रुटि उत्पन्न करनी चाहिए:लक्ष्य तालिका किसी भी कॉलम में नल की अनुमति नहीं देती है। स्रोत तालिका से जो भी मिलान पंक्ति चुनी जाती है, कॉलम को अपडेट करने का प्रयास c2
या c3
शून्य करने के लिए जरूरी होता है।
दुर्भाग्य से, अद्यतन सफल होता है, और लक्ष्य तालिका की अंतिम स्थिति आपूर्ति किए गए डेटा के साथ असंगत होती है:
मैंने इसे एक बग के रूप में रिपोर्ट किया है। गैर-नियतात्मक UPDATE
लिखने से बचने के लिए वैकल्पिक उपाय है बयान, इसलिए ANY
अस्पष्टता को हल करने के लिए समुच्चय की आवश्यकता नहीं है।
जैसा कि उल्लेख किया गया है, SQL सर्वर ANY
पेश कर सकता है यहां दिए गए दो उदाहरणों की तुलना में अधिक परिस्थितियों में समुच्चय। अगर ऐसा तब होता है जब एग्रीगेट किए गए कॉलम में नल होते हैं, तो गलत नतीजों की संभावना होती है.