आपके सामने जो समस्या आ रही है, वह यह है कि यूनिकोड एक ही प्रतीक की रचना करने के कई तरीकों की अनुमति देता है। पायथन मॉड्यूल unicodedata
एक फ़ंक्शन प्रदान करता है normalize
जो आपको यूनिकोड अभ्यावेदन को एक निश्चित form
में बदलने की अनुमति देता है (जैसे एनएफसी)
from unicodedata import normalize
S1 = b'\xc4\x83\xcc\x83'.decode('UTF-8')
S2 = b'\xe1\xba\xb5'.decode('UTF-8')
print(normalize('NFC', S1).encode('UTF-8'))
print(normalize('NFC', S2).encode('UTF-8'))
आपके उदाहरण में ट्रिपएडवाइजर एनएफडी फॉर्म में प्रदर्शित होता है, जबकि नोटपैड एनएफसी का उपयोग करता है।