Mysql
 sql >> डेटाबेस >  >> RDS >> Mysql

mysql - फुलटेक्स्ट इंडेक्स - प्राकृतिक भाषा मोड क्या है

MySQL की नेचुरल लैंग्वेज फुल-टेक्स्ट सर्च का उद्देश्य सबसे प्रासंगिक मिलान खोजने के लिए एक कॉर्पस के खिलाफ खोज क्वेरी का मिलान करना है। तो मान लीजिए कि हमारे पास एक लेख है जिसमें "आई लव पाई" है और हमारे पास दस्तावेज डी 1, डी 2, डी 3 (आपके मामले में डेटाबेस) है। दस्तावेज़ 1 और 2 क्रमशः खेल और धर्म के बारे में हैं, और दस्तावेज़ 3 भोजन के बारे में है। आपकी क्वेरी,

d3, और फिर d2, d1 (d2, d1 का यादृच्छिक क्रम जिसके आधार पर लेख के बराबर है) लौटाएगा क्योंकि d3 लेख से सबसे अच्छा मेल खाता है।

अंतर्निहित एल्गोरिथम MYSQL शायद tf-idf एल्गोरिथम का उपयोग करता है, जहां tf टर्म फ़्रीक्वेंसी के लिए है और आईडीएफ उलटा दस्तावेज़ आवृत्ति के लिए है। tf जैसा कि यह कहता है, लेख में एक शब्द w जितनी बार एक दस्तावेज़ में होता है। आईडीएफ इस बात पर आधारित है कि शब्द कितने दस्तावेज़ों में आता है। इसलिए कई दस्तावेज़ों में आने वाले शब्द सबसे अधिक प्रतिनिधि दस्तावेज़ तय करने में योगदान नहीं करते हैं। tf*idf का गुणनफल एक अंक उत्पन्न करता है, जितना अधिक, उतना ही बेहतर शब्द किसी दस्तावेज़ का प्रतिनिधित्व करता है। तो 'पाई' केवल दस्तावेज़ d3 में होगा और इस प्रकार एक उच्च टीएफ और एक उच्च आईडीएफ होगा (क्योंकि यह उलटा है)। जबकि 'the' का tf अधिक होगा लेकिन idf कम होगा जो tf को बाहर कर देगा और कम स्कोर देगा।

MYSQL प्राकृतिक भाषा मोड भी स्टॉपवर्ड (द, ए, कुछ आदि) के एक सेट के साथ आता है और 4 अक्षरों से कम के शब्दों को हटा देता है। जो आपके द्वारा दिए गए लिंक में देखा जा सकता है।




  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. पहले अक्षर को क्रमबद्ध करने के लिए LIKE के साथ रेगेक्स का उपयोग करना फिर SQL का प्रतीक है

  2. एक MySQL डेटाबेस से एक पंक्ति से एक कॉलम पढ़ें

  3. MySQL2 / रूबी 1.9.3 / रेल 3.2 . पर विभाजन दोष

  4. पायथन और MySQLdb - ड्रॉप टेबल का उपयोग करना यदि EXISTS अपवाद फेंकता प्रतीत होता है

  5. Information_schema.tables पर धीमी क्वेरी