आपके द्वारा प्रदान किए गए दस्तावेज़ में यह कहा गया है:
इससे पता चलता है कि ग्रीक समर्थित नहीं है क्योंकि यह इनमें से किसी भी वर्ण सेट में नहीं आता है (मेरा मानना है कि ग्रीक लैटिन -7 है)। उस ने कहा, आप एक रिकॉर्ड स्तर पर भाषा ध्वज सेट करने का प्रयास कर सकते हैं (चूंकि आप इंगित करते हैं कि आपके डेटा में अंग्रेजी और ग्रीक दोनों शामिल हैं) यह मानते हुए कि प्रत्येक भाषा का अपना रिकॉर्ड है या dgidxका उपयोग करके वैश्विक भाषा को लागू करने का प्रयास करें। कोड> और
डीग्राफ
पैरामीटर लेकिन यह रिकॉर्ड या संपत्तियों के लिए स्टेमिंग जैसी चीजों को प्रभावित करेगा जो वैश्विक भाषा में नहीं हैं।
dgidx --lang el
dgraph --lang el
हालांकि मुझे यकीन नहीं है कि यह मूल कथन के आधार पर काम करेगा।
वैकल्पिक रूप से, आप एक कस्टम एक्सेसर
. का उपयोग करके विशेषक हटाने की प्रक्रिया को लागू कर सकते हैं , जो atg.repository.search.indexing.PropertyAccessorImpl
का विस्तार करता है वर्ग (एक विकल्प क्योंकि आप Nucleus
. को देखें , इसलिए मुझे लगता है कि आप एटीजी/ओरेकल कॉमर्स का उपयोग कर रहे हैं)। इसका उपयोग करके आप अपनी अनुक्रमणिका में एक सामान्यीकृत खोज योग्य फ़ील्ड निर्दिष्ट करते हैं जो आपके वर्तमान अनुक्रमणिका में खोजने योग्य फ़ील्ड को डुप्लिकेट करता है लेकिन अब सभी विशेषक हटा दिए गए हैं। वही तर्क जो आप एक्सेसर
. में लागू करते हैं फिर आपके खोज शब्दों पर प्रीप्रोसेसर के रूप में लागू करने की आवश्यकता है ताकि आप अनुक्रमित मानों से मेल खाने के लिए इनपुट को सामान्य कर सकें। अंत में अपने मूल फ़ील्ड को अनुक्रमणिका में (उच्चारण वर्णों के साथ) केवल-प्रदर्शन और सामान्यीकृत फ़ील्ड को खोजने योग्य बनाएं (लेकिन उन्हें प्रदर्शित न करें)।
परिणाम आपके सामान्यीकृत पाठ से मेल खाएगा लेकिन नकारात्मक पक्ष यह है कि आपके पास डुप्लिकेट डेटा है इसलिए आपकी अनुक्रमणिका बड़ी होगी। छोटे डेटा सेट के साथ कोई बड़ी समस्या नहीं है। ओओटीबी कार्यक्षमता, जैसे स्टेमिंग, सामान्यीकृत डेटा सेट के साथ कैसे व्यवहार करती है, इस पर भी प्रभाव पड़ सकता है। आपको यह देखने के लिए ग्रीक और अंग्रेजी में विभिन्न परिदृश्यों के साथ कुछ परीक्षण करना होगा कि क्या सटीकता और स्मरण पर प्रतिकूल प्रभाव पड़ता है।