Mysql
 sql >> डेटाबेस >  >> RDS >> Mysql

यूटीएफ -8 में 3 से अधिक बाइट्स लेने वाले यूनिकोड वर्णों को कैसे फ़िल्टर (या प्रतिस्थापित) करें?

\u0000-\uD7FF और \uE000-\uFFFF श्रेणियों में यूनिकोड वर्णों में UTF8 में 3 बाइट (या उससे कम) एन्कोडिंग होंगे। \uD800-\uDFFF रेंज मल्टीबाइट UTF16 के लिए है। मैं अजगर को नहीं जानता, लेकिन आपको उन श्रेणियों के बाहर मिलान करने के लिए एक नियमित अभिव्यक्ति सेट करने में सक्षम होना चाहिए।

pattern = re.compile("[\uD800-\uDFFF].", re.UNICODE)
pattern = re.compile("[^\u0000-\uFFFF]", re.UNICODE)

प्रश्न के मुख्य भाग में डेनिलसन सा की स्क्रिप्ट से पायथन जोड़ने का संपादन करें:

re_pattern = re.compile(u'[^\u0000-\uD7FF\uE000-\uFFFF]', re.UNICODE)
filtered_string = re_pattern.sub(u'\uFFFD', unicode_string)    


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. मैसकल:पसंद के हिसाब से ऑर्डर करें?

  2. JPA का उपयोग करके SSH के माध्यम से दूरस्थ MySQL सर्वर से कैसे कनेक्ट करें?

  3. चुनें * जहां मौजूद नहीं है

  4. सत्र_स्टार्ट उपयोगकर्ता प्रोफ़ाइल विवरण

  5. एक संख्यात्मक सूत्र के अनुसार कॉलम मान को फिर से असाइन करने के लिए अद्यतन विवरण