ओरेकल रेगुलर एक्सप्रेशंस। खतरनाक रेंज

एक Oracle डेवलपर जो अक्सर जल्दी या बाद में कोड में नियमित अभिव्यक्तियों का उपयोग करता है, एक ऐसी घटना का सामना कर सकता है जो वास्तव में रहस्यमय है। समस्या की जड़ की लंबी अवधि की खोज से वजन कम हो सकता है, भूख लग सकती है और विभिन्न प्रकार के मनोदैहिक विकार हो सकते हैं - यह सब regexp_replace फ़ंक्शन की मदद से रोका जा सकता है। इसमें अधिकतम 6 तर्क हो सकते हैं:

REGEXP_REPLACE (

source_string,
टेम्पलेट,
प्रतिस्थापन_स्ट्रिंग,
टेम्पलेट के साथ मिलान खोज की प्रारंभ स्थिति (डिफ़ॉल्ट 1),
स्रोत स्ट्रिंग में टेम्पलेट की घटना की स्थिति (डिफ़ॉल्ट रूप से 0 सभी घटनाओं के बराबर होती है),
संशोधक (अब तक यह एक काला घोड़ा है)

)

संशोधित स्रोत_स्ट्रिंग लौटाता है जिसमें टेम्पलेट की सभी घटनाओं को प्रतिस्थापन_स्ट्रिंग पैरामीटर में दिए गए मान से बदल दिया जाता है। अक्सर फ़ंक्शन के एक छोटे संस्करण का उपयोग किया जाता है, जहां पहले 3 तर्क निर्दिष्ट होते हैं, जो कई समस्याओं को हल करने के लिए पर्याप्त है। मैं भी यही करूंगा। मान लीजिए कि हमें 'MASK:लोअर केस' स्ट्रिंग में तारक के साथ सभी स्ट्रिंग वर्णों को मास्क करने की आवश्यकता है। लोअरकेस वर्णों की श्रेणी निर्दिष्ट करने के लिए, '[a-z]' पैटर्न उपयुक्त होना चाहिए।

select regexp_replace('MASK: lower case', '[a-z]', '*') as result from dual

उम्मीद

+------------------+
| RESULT           |
+------------------+
| MASK: ***** **** |
+------------------+

वास्तविकता

+------------------+
| RESULT           |
+------------------+
| *A**: ***** **** |
+------------------+

यदि इस घटना को आपके डेटाबेस में पुन:प्रस्तुत नहीं किया गया है, तो आप अब तक भाग्यशाली हैं। लेकिन अधिक बार आप कोड में खोदना शुरू करते हैं, स्ट्रिंग्स को वर्णों के एक सेट से दूसरे में परिवर्तित करते हैं और अंत में, एक निराशा आती है।

समस्या को परिभाषित करना

सवाल उठता है - अक्षर 'ए' में ऐसा क्या खास है कि इसे बदला नहीं गया है क्योंकि बाकी बड़े अक्षरों को भी बदला नहीं जाना चाहिए था। हो सकता है कि इसके अलावा अन्य सही अक्षर हों। अपरकेस वर्णों की संपूर्ण वर्णमाला को देखना आवश्यक है।

select regexp_replace('ABCDEFJHIGKLMNOPQRSTUVWXYZ', '[a-z]', '*') as alphabet from dual

+----------------------------+
| ALPHABET                   |
+----------------------------+
| A************************* |
+----------------------------+

हालांकि

यदि फ़ंक्शन का छठा तर्क स्पष्ट रूप से निर्दिष्ट नहीं है, उदाहरण के लिए, 'i' केस-असंवेदनशीलता है या 'c' केस-सेंसिटिविटी है जब स्रोत स्ट्रिंग की तुलना टेम्पलेट से की जाती है, तो रेगुलर एक्सप्रेशन डिफ़ॉल्ट रूप से सत्र/डेटाबेस के NLS_SORT पैरामीटर का उपयोग करता है। उदाहरण के लिए:

select value from sys.nls_session_parameters where parameter = 'NLS_SORT'

+---------+
| VALUE   |
+---------+
| ENGLISH |
+---------+

यह पैरामीटर ORDER BY में छँटाई विधि निर्दिष्ट करता है। यदि हम साधारण व्यक्तिगत वर्णों को छाँटने की बात करते हैं, तो एक निश्चित द्विआधारी संख्या (NLSSORT- कोड) उनमें से प्रत्येक से मेल खाती है और वास्तव में इन संख्याओं के मान के आधार पर छँटाई होती है।

इसे स्पष्ट करने के लिए, आइए वर्णमाला के पहले और अंतिम कुछ अक्षर, लोअरकेस और अपरकेस दोनों को लें, और उन्हें सशर्त रूप से अव्यवस्थित तालिका सेट में रखें और इसे ABC कहें। फिर, आइए इस सेट को SYMBOL फ़ील्ड द्वारा सॉर्ट करें और प्रत्येक प्रतीक के आगे HEX प्रारूप में इसका NLSSORT-कोड प्रदर्शित करें।

with ABC as (
  select column_value as symbol
  from table(sys.odcivarchar2list('A','B','C','X','Y','Z','a','b','c','x','y','z'))
)
select symbol, 
       nlssort(symbol) nls_code_hex
from ABC
order by symbol

क्वेरी में, ORDER BY को SYMBOL फ़ील्ड के लिए निर्दिष्ट किया गया है, लेकिन वास्तव में, डेटाबेस में, सॉर्टिंग NLS_CODE_HEX फ़ील्ड के मानों के अनुसार होती है।

अब, टेम्प्लेट से रेंज पर वापस जाएं और तालिका को देखें - प्रतीक 'a' (कोड 14000200) और 'z' (कोड 87000200) के बीच लंबवत क्या है? कैपिटल लेटर 'ए' को छोड़कर सब कुछ। बस यही सब एक तारक से बदल दिया गया है। और 'ए' अक्षर का कोड 14000100 14000200 से 87000200 तक की रिप्लेसमेंट रेंज में शामिल नहीं है।

इलाज

केस-सेंसिटिविटी संशोधक स्पष्ट रूप से निर्दिष्ट करें

select regexp_replace('MASK: lower case', '[a-z]', '*', 1, 0, 'c') from dual

+------------------+
| RESULT           |
+------------------+
| MASK: ***** **** |
+------------------+

कुछ सूत्रों का कहना है कि संशोधक 'सी' डिफ़ॉल्ट रूप से सेट है, लेकिन हमने अभी देखा है कि यह बिल्कुल सच नहीं है। और अगर किसी ने इसे नहीं देखा है, तो इसके सत्र/डेटाबेस का NLS_SORT पैरामीटर सबसे अधिक BINARY पर सेट होने की संभावना है और छँटाई वास्तविक वर्णों के कोड के साथ पत्राचार में की जाती है। वास्तव में, यदि आप सत्र पैरामीटर बदलते हैं, तो समस्या हल हो जाएगी।

ALTER SESSION SET NLS_SORT=BINARY;

select regexp_replace('MASK: lower case', '[a-z]', '*') as result from dual

+------------------+
| RESULT           |
+------------------+
| MASK: ***** **** |
+------------------+

Oracle 12c में परीक्षण किए गए।

बेझिझक अपनी टिप्पणी दें और ध्यान रखें।