MongoDB
 sql >> डेटाबेस >  >> NoSQL >> MongoDB

एक ही शब्द लेकिन अलग-अलग यूनिकोड वर्ण

आपके सामने जो समस्या आ रही है, वह यह है कि यूनिकोड एक ही प्रतीक की रचना करने के कई तरीकों की अनुमति देता है। पायथन मॉड्यूल unicodedata एक फ़ंक्शन प्रदान करता है normalize जो आपको यूनिकोड अभ्यावेदन को एक निश्चित form में बदलने की अनुमति देता है (जैसे एनएफसी)

from unicodedata import normalize

S1 = b'\xc4\x83\xcc\x83'.decode('UTF-8')
S2 = b'\xe1\xba\xb5'.decode('UTF-8')

print(normalize('NFC', S1).encode('UTF-8'))
print(normalize('NFC', S2).encode('UTF-8'))

आपके उदाहरण में ट्रिपएडवाइजर एनएफडी फॉर्म में प्रदर्शित होता है, जबकि नोटपैड एनएफसी का उपयोग करता है।




  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. एक डीबी का मोंगोरेस्टोर मुझे परेशान कर रहा है

  2. मोंगोडब में php का उपयोग करके फुलटेक्स्ट इंडेक्स में कैसे खोजें?

  3. NodeJS + Mongo:यदि मौजूद नहीं है तो डालें, अन्यथा - अपडेट करें

  4. $not . के साथ MongoDB भू-स्थानिक क्वेरी

  5. MongoDB क्लाइंट टाइमआउट विकल्पों को समझना