कई अलग-अलग अदृश्य पात्र हैं। उनमें से कई के पास WSpace=Y
. संपत्ति है ("व्हाट्सएप") यूनिकोड में। लेकिन कुछ विशेष पात्रों को "व्हाट्सएप" नहीं माना जाता है और फिर भी उनका कोई दृश्य प्रतिनिधित्व नहीं होता है। स्पेस (विराम चिह्न) और व्हाइटस्पेस वर्णों के बारे में उत्कृष्ट विकिपीडिया लेख आपको एक विचार देना चाहिए।
मानक एसक्यूएल trim()
डिफ़ॉल्ट रूप से फ़ंक्शन केवल मूल लैटिन स्पेस कैरेक्टर को ट्रिम करता है (यूनिकोड:U+0020 / ASCII 32)। rtrim()
. के साथ भी ऐसा ही है और ltrim()
वेरिएंट। आपका कॉल भी केवल उस विशेष वर्ण को लक्षित करता है।
regexp_replace()
के साथ रेगुलर एक्सप्रेशन का उपयोग करें इसके बजाय।
अनुगामी
सभी अनुगामी श्वेत स्थान को निकालने के लिए (लेकिन सफेद जगह नहीं अंदर स्ट्रिंग):
SELECT regexp_replace(eventdate, '\s+$', '') FROM eventdates;
रेगुलर एक्सप्रेशन समझाया गया:\s
... [[:space:]]
. के लिए रेगुलर एक्सप्रेशन क्लास शॉर्टहैंड
- जो व्हाइट-स्पेस वर्णों का समूह है - नीचे सीमाएं देखें +
... लगातार 1 या अधिक मैच$
... स्ट्रिंग का अंत
डेमो:
SELECT regexp_replace('inner white ', '\s+$', '') || '|'
रिटर्न:
inner white|
हाँ, यह एक एकल है बैकस्लैश (\
) इस संबंधित उत्तर में विवरण:
- एसक्यूएल चुनें कि कॉलम कहां से शुरू होता है \
अग्रणी
सभी प्रमुख रिक्त स्थान को निकालने के लिए (लेकिन स्ट्रिंग के अंदर सफेद जगह नहीं):
regexp_replace(eventdate, '^\s+', '')
^
.. स्ट्रिंग की शुरुआत
दोनों
दोनों को हटाने के लिए , आप फ़ंक्शन कॉल के ऊपर श्रृंखलाबद्ध कर सकते हैं:
regexp_replace(regexp_replace(eventdate, '^\s+', ''), '\s+$', '')
या आप दोनों को एक ही कॉल में दो शाखाओं . के साथ जोड़ सकते हैं .'g'
जोड़ें सभी मैचों को बदलने के लिए चौथे पैरामीटर के रूप में, न कि केवल पहला:
regexp_replace(eventdate, '^\s+|\s+$', '', 'g')
लेकिन यह आमतौर पर substring()
. के साथ तेज़ होना चाहिए :
substring(eventdate, '\S(?:.*\S)*')
\S
... सब कुछ लेकिन सफेद स्थान(?:
re
)
... कोष्ठकों का गैर-कैप्चरिंग सेट.*
... 0-n वर्णों की कोई भी स्ट्रिंग
या इनमें से एक:
substring(eventdate, '^\s*(.*\S)')
substring(eventdate, '(\S.*\S)') -- only works for 2+ printing characters
(
re
)
... कोष्ठकों के सेट को कैप्चर करना
पहले गैर-व्हाट्सएप वर्ण और उपलब्ध होने पर अंतिम गैर-व्हाट्सएप वर्ण तक सब कुछ प्रभावी ढंग से लेता है।
व्हाइटस्पेस?
कुछ और संबंधित वर्ण हैं जिन्हें यूनिकोड में "व्हाट्सएप" के रूप में वर्गीकृत नहीं किया गया है - इसलिए वर्ण वर्ग में शामिल नहीं है [[:space:]]
।
ये मेरे लिए pgAdmin में अदृश्य ग्लिफ़ के रूप में प्रिंट करते हैं:"मंगोलियन स्वर", "शून्य चौड़ाई स्थान", "शून्य चौड़ाई गैर-जुड़ने वाला", "शून्य चौड़ाई योजक":
SELECT E'\u180e', E'\u200B', E'\u200C', E'\u200D';
'' | '' | '' | ''
दो और, दृश्यमान . के रूप में प्रिंट करना pgAdmin में ग्लिफ़, लेकिन मेरे ब्राउज़र में अदृश्य:"वर्ड जॉइनर", "ज़ीरो चौड़ाई नॉन-ब्रेकिंग स्पेस":
SELECT E'\u2060', E'\uFEFF';
'' | ''
अंततः, पात्रों को अदृश्य किया जाता है या नहीं, यह भी प्रदर्शन के लिए उपयोग किए जाने वाले फ़ॉन्ट पर निर्भर करता है।
इन सभी को हटाने के लिए साथ ही, '\s'
. को बदलें '[\s\u180e\u200B\u200C\u200D\u2060\uFEFF]'
के साथ या '[\s]'
(अदृश्य वर्णों के पीछे नोट करें!)।
उदाहरण के बजाय:
regexp_replace(eventdate, '\s+$', '')
उपयोग करें:
regexp_replace(eventdate, '[\s\u180e\u200B\u200C\u200D\u2060\uFEFF]+$', '')
या:
regexp_replace(eventdate, '[\s]+$', '') -- note invisible characters
सीमाएं
पॉज़िक्स वर्ण वर्ग भी है [[:graph:]]
"दृश्यमान पात्रों" का प्रतिनिधित्व करना चाहिए। उदाहरण:
substring(eventdate, '([[:graph:]].*[[:graph:]])')
यह प्रत्येक सेटअप में ASCII वर्णों के लिए मज़बूती से काम करता है (जहां यह [\x21-\x7E]
तक उबलता है) ), लेकिन इससे आगे आप वर्तमान में (पृष्ठ 10 सहित) अंतर्निहित ओएस द्वारा प्रदान की गई जानकारी पर निर्भर हैं (ctype
को परिभाषित करने के लिए) ) और संभवतः स्थानीय सेटिंग्स।
कड़ाई से बोलते हुए, हर . के लिए यही स्थिति है एक चरित्र वर्ग के संदर्भ में, लेकिन कम आम तौर पर इस्तेमाल किए जाने वाले लोगों जैसे ग्राफ के साथ अधिक असहमति प्रतीत होती है . लेकिन आपको वर्ण वर्ग में और वर्ण जोड़ने पड़ सकते हैं [[:space:]]
(आशुलिपि \s
) सभी व्हाइटस्पेस वर्णों को पकड़ने के लिए। जैसे:\u2007
, \u202f
और \u00a0
लगता है @XiCoN JFS के लिए भी गायब है।
मैनुअल:
<ब्लॉककोट>
ब्रैकेट एक्सप्रेशन के भीतर, वर्ण वर्ग का नाम [:
. में संलग्न है और :]
उस वर्ग से संबंधित सभी पात्रों की सूची के लिए खड़ा है। मानक वर्ण वर्ग के नाम हैं:alnum
, alpha
, blank
, cntrl
,digit
, graph
, lower
, print
, punct
, space
, upper
, xdigit
.ये ctype में परिभाषित वर्ण वर्गों के लिए खड़े हैं। एक स्थान दूसरों को प्रदान कर सकता है।
बोल्ड जोर मेरा।
पोस्टग्रेज 10 के साथ तय की गई इस सीमा पर भी ध्यान दें:
<ब्लॉककोट>
बड़े कैरेक्टर कोड के लिए रेगुलर एक्सप्रेशन के कैरेक्टर क्लास हैंडलिंग को ठीक करें, विशेष रूप से U+7FF
से ऊपर के यूनिकोड कैरेक्टर (टॉम लेन)
पहले, ऐसे पात्रों को स्थानीय-निर्भर वर्ण वर्गों जैसे [[:alpha:]]
से संबंधित के रूप में कभी नहीं पहचाना जाता था। ।