mysql - फुलटेक्स्ट इंडेक्स - प्राकृतिक भाषा मोड क्या है

MySQL की नेचुरल लैंग्वेज फुल-टेक्स्ट सर्च का उद्देश्य सबसे प्रासंगिक मिलान खोजने के लिए एक कॉर्पस के खिलाफ खोज क्वेरी का मिलान करना है। तो मान लीजिए कि हमारे पास एक लेख है जिसमें "आई लव पाई" है और हमारे पास दस्तावेज डी 1, डी 2, डी 3 (आपके मामले में डेटाबेस) है। दस्तावेज़ 1 और 2 क्रमशः खेल और धर्म के बारे में हैं, और दस्तावेज़ 3 भोजन के बारे में है। आपकी क्वेरी,

d3, और फिर d2, d1 (d2, d1 का यादृच्छिक क्रम जिसके आधार पर लेख के बराबर है) लौटाएगा क्योंकि d3 लेख से सबसे अच्छा मेल खाता है।

अंतर्निहित एल्गोरिथम MYSQL शायद tf-idf एल्गोरिथम का उपयोग करता है, जहां tf टर्म फ़्रीक्वेंसी के लिए है और आईडीएफ उलटा दस्तावेज़ आवृत्ति के लिए है। tf जैसा कि यह कहता है, लेख में एक शब्द w जितनी बार एक दस्तावेज़ में होता है। आईडीएफ इस बात पर आधारित है कि शब्द कितने दस्तावेज़ों में आता है। इसलिए कई दस्तावेज़ों में आने वाले शब्द सबसे अधिक प्रतिनिधि दस्तावेज़ तय करने में योगदान नहीं करते हैं। tf*idf का गुणनफल एक अंक उत्पन्न करता है, जितना अधिक, उतना ही बेहतर शब्द किसी दस्तावेज़ का प्रतिनिधित्व करता है। तो 'पाई' केवल दस्तावेज़ d3 में होगा और इस प्रकार एक उच्च टीएफ और एक उच्च आईडीएफ होगा (क्योंकि यह उलटा है)। जबकि 'the' का tf अधिक होगा लेकिन idf कम होगा जो tf को बाहर कर देगा और कम स्कोर देगा।

MYSQL प्राकृतिक भाषा मोड भी स्टॉपवर्ड (द, ए, कुछ आदि) के एक सेट के साथ आता है और 4 अक्षरों से कम के शब्दों को हटा देता है। जो आपके द्वारा दिए गए लिंक में देखा जा सकता है।