आपके सामने जो समस्या आ रही है, वह यह है कि यूनिकोड एक ही प्रतीक की रचना करने के कई तरीकों की अनुमति देता है। पायथन मॉड्यूल unicodedata एक फ़ंक्शन प्रदान करता है normalize जो आपको यूनिकोड अभ्यावेदन को एक निश्चित form
में बदलने की अनुमति देता है (जैसे एनएफसी)
from unicodedata import normalize
S1 = b'\xc4\x83\xcc\x83'.decode('UTF-8')
S2 = b'\xe1\xba\xb5'.decode('UTF-8')
print(normalize('NFC', S1).encode('UTF-8'))
print(normalize('NFC', S2).encode('UTF-8'))
आपके उदाहरण में ट्रिपएडवाइजर एनएफडी फॉर्म में प्रदर्शित होता है, जबकि नोटपैड एनएफसी का उपयोग करता है।