यह समस्या इस साइट के प्रतिभागियों और कई अन्य लोगों को परेशान करती है।
आपने CHARACTER SET . के पांच मुख्य मामलों को सूचीबद्ध किया है परेशानी।
सर्वोत्तम अभ्यास
आगे बढ़ते हुए, CHARACTER SET utf8mb4 . का उपयोग करना सबसे अच्छा है और COLLATION utf8mb4_unicode_520_ci . (यूनिकोड संयोजन का एक नया संस्करण पाइपलाइन में है।)
utf8mb4 utf8 . का सुपरसेट है इसमें यह 4-बाइट utf8 कोड को हैंडल करता है, जिनकी इमोजी और कुछ चीनी लोगों को जरूरत होती है।
MySQL के बाहर, "UTF-8" सभी आकार के एनकोडिंग को संदर्भित करता है, इसलिए प्रभावी रूप से MySQL के utf8mb4 के समान ही है। , नहीं utf8 ।
मैं निम्नलिखित में MySQL के अंदर बनाम बाहर अंतर करने के लिए उन वर्तनी और पूंजीकरणों का उपयोग करने का प्रयास करूंगा।
इस बात का अवलोकन कि आपको क्या करना चाहिए करो
- क्या आपका संपादक, आदि UTF-8 पर सेट है।
- एचटीएमएल फॉर्म इस तरह शुरू होने चाहिए
<form accept-charset="UTF-8">। - क्या आपके बाइट UTF-8 के रूप में एन्कोड किए गए हैं।
- क्लाइंट में उपयोग किए जा रहे एन्कोडिंग के रूप में UTF-8 स्थापित करें।
- कॉलम/टेबल घोषित करें
CHARACTER SET utf8mb4(SHOW CREATE TABLEके साथ चेक करें) ।) <meta charset=UTF-8>HTML की शुरुआत में- संग्रहीत रूटीन वर्तमान वर्णसेट/संयोजन प्राप्त करते हैं। उन्हें पुनर्निर्माण की आवश्यकता हो सकती है।
कंप्यूटर भाषाओं के लिए अधिक विवरण (और इसके निम्नलिखित अनुभाग)
डेटा का परीक्षण करें
किसी टूल के साथ या SELECT . के साथ डेटा देखना भरोसा नहीं किया जा सकता है। ऐसे बहुत से क्लाइंट, विशेष रूप से ब्राउज़र, गलत एन्कोडिंग के लिए क्षतिपूर्ति करने का प्रयास करते हैं, और डेटाबेस के खराब होने पर भी आपको सही टेक्स्ट दिखाते हैं। इसलिए, एक टेबल और कॉलम चुनें जिसमें कुछ गैर-अंग्रेज़ी टेक्स्ट हों और करें
SELECT col, HEX(col) FROM tbl WHERE ...
सही ढंग से संग्रहीत UTF-8 के लिए HEX होगा
- रिक्त स्थान के लिए (किसी भी भाषा में):
20 - अंग्रेज़ी के लिए:
4x,5x,6x, या7x - अधिकांश पश्चिमी यूरोप के लिए, उच्चारण वाले अक्षर
Cxyy. होने चाहिए - सिरिलिक, हिब्रू और फ़ारसी/अरबी:
Dxyy - अधिकांश एशिया:
Exyyzz - इमोजी और कुछ चीनी:
F0yyzzww - अधिक विवरण
देखी गई समस्याओं के विशिष्ट कारण और समाधान
छोटा गया टेक्स्ट (Se Señor . के लिए ):
- संग्रहीत किए जाने वाले बाइट utf8mb4 के रूप में एन्कोडेड नहीं हैं। इसे ठीक करें।
- यह भी जांचें कि पढ़ने के दौरान कनेक्शन UTF-8 है।
ब्लैक डायमंड्स प्रश्न चिह्नों के साथ (Se�or Señor . के लिए );इनमें से एक मामला मौजूद है:
केस 1 (मूल बाइट नहीं थे) UTF-8):
- संग्रहीत किए जाने वाले बाइट utf8 के रूप में एन्कोडेड नहीं हैं। इसे ठीक करें।
- कनेक्शन (या
SET NAMES)INSERT. के लिए औरSELECTutf8/utf8mb4 नहीं था। इसे ठीक करें। - यह भी जांचें कि डेटाबेस में कॉलम
CHARACTER SET utf8है (या utf8mb4)।
केस 2 (मूल बाइट्स थे . थे UTF-8):
- कनेक्शन (या
SET NAMES)SELECT. के लिए utf8/utf8mb4 नहीं था। इसे ठीक करें। - यह भी जांचें कि डेटाबेस में कॉलम
CHARACTER SET utf8है (या utf8mb4)।
ब्लैक डायमंड तभी बनते हैं जब ब्राउज़र <meta charset=UTF-8> . पर सेट होता है ।
प्रश्न चिह्न (नियमित वाले, काले हीरे नहीं) (Se?or Señor . के लिए ):
- संग्रहीत किए जाने वाले बाइट utf8/utf8mb4 के रूप में एन्कोडेड नहीं हैं। इसे ठीक करें।
- डेटाबेस में कॉलम
CHARACTER SET utf8नहीं है (या utf8mb4)। इसे ठीक करो। (SHOW CREATE TABLEका उपयोग करें ।) - यह भी जांचें कि पढ़ने के दौरान कनेक्शन UTF-8 है।
मोजिबेक (Señor Señor . के लिए ):(यह चर्चा डबल एन्कोडिंग . पर भी लागू होती है , जो जरूरी नहीं कि दिखाई दे।)
- स्टोर किए जाने वाले बाइट्स को UTF-8-एन्कोडेड होना चाहिए। इसे ठीक करें।
- कनेक्शन जब
INSERTingऔरSELECTingपाठ को utf8 या utf8mb4 निर्दिष्ट करने की आवश्यकता है। इसे ठीक करें। - कॉलम को घोषित करने की आवश्यकता है
CHARACTER SET utf8(या utf8mb4)। इसे ठीक करें। - HTML को
<meta charset=UTF-8>with से शुरू होना चाहिए ।
यदि डेटा सही दिखता है, लेकिन सही ढंग से क्रमबद्ध नहीं होगा, तो या तो आपने गलत संयोजन चुना है, या आपकी आवश्यकता के अनुरूप कोई संयोजन नहीं है, या आपके पास डबल एन्कोडिंग है ।
डबल एन्कोडिंग SELECT .. HEX .. . करके पुष्टि की जा सकती है ऊपर वर्णित है।
é should come back C3A9, but instead shows C383C2A9
The Emoji 👽 should come back F09F91BD, but comes back C3B0C5B8E28098C2BD
यही है, हेक्स जितना लंबा होना चाहिए उससे लगभग दोगुना है। यह लैटिन 1 (या जो कुछ भी) से utf8 में परिवर्तित होने के कारण होता है, फिर उनबाइट्स का इलाज करना जैसे कि वे लैटिन 1 थे और रूपांतरण दोहराते थे। सॉर्टिंग (और तुलना) नहीं करता है सही ढंग से काम करें क्योंकि यह, उदाहरण के लिए, सॉर्ट करना है जैसे कि स्ट्रिंग Señor . थी ।
जहां संभव हो, डेटा को ठीक करना
छंटनी . के लिए और प्रश्न चिह्न , डेटा खो गया है।
मोजिबेक . के लिए / डबल एन्कोडिंग , ...
ब्लैक डायमंड्स . के लिए , ...
ठीक करता है यहाँ सूचीबद्ध हैं। (5 अलग-अलग स्थितियों के लिए 5 अलग-अलग सुधार; ध्यान से चुनें):https://mysql. rjweb.org/doc.php/charcoll#fixes_for_various_cases