आपका संदेह सही है, यह एक ढेर आकार की समस्या है, या अधिक सटीक रूप से, एक मापनीयता बाधा है। सीधे गाजर2 से अक्सर पूछे जाने वाले प्रश्न:http://project.carrot2.org/faq.html#scalability
<ब्लॉकक्वॉट>दस्तावेजों की संख्या और लंबाई के संबंध में Carrot2 क्लस्टरिंग स्केल कैसे करता है? Carrot2 एल्गोरिदम की सबसे महत्वपूर्ण विशेषता को ध्यान में रखना है कि वे इन-मेमोरी क्लस्टरिंग करते हैं। इस कारण से, एक सामान्य नियम के रूप में, Carrot2 को एक हज़ार दस्तावेज़ों, प्रत्येक में कुछ पैराग्राफ़ तक सफलतापूर्वक डील करना चाहिए। लाखों दस्तावेज़ों को संसाधित करने के लिए डिज़ाइन किए गए एल्गोरिदम के लिए, आप Mahout प्रोजेक्ट को देखना चाह सकते हैं।
एक डेवलपर ने इस बारे में यहां भी पोस्ट किया:https://stackoverflow.com/a/28991477
जबकि डेवलपर्स महौत की सलाह देते हैं, और शायद यही रास्ता है क्योंकि आप इन-मेमोरी क्लस्टरिंग बाधाओं से बंधे नहीं होंगे जैसे कि गाजर 2 में, अन्य संभावनाएं हो सकती हैं, हालांकि:
-
यदि आप वास्तव में गाजर 2 पसंद करते हैं, लेकिन जरूरी नहीं कि के-साधनों की आवश्यकता हो, तो आप वाणिज्यिक लिंगो 3 जी पर एक नज़र डाल सकते हैं, जो "100000 स्निपेट्स के क्लस्टरिंग का समय [एस]" फ़ील्ड और (***) टिप्पणी http://carrotsearch.com/lingo3g-comparison यह अधिक दस्तावेजों से निपटने में सक्षम होना चाहिए। "Lingo3G के क्लस्टर किए जा सकने वाले दस्तावेज़ों की अधिकतम संख्या क्या है?" पर उनकी अक्सर पूछे जाने वाले प्रश्न प्रविष्टि भी देखें। पर http://carrotsearch.com/lingo3g-faq
-
अपने लेबल के आकार को कम करने का प्रयास करें जिस पर k- साधन क्लस्टरिंग कर रहा है। सभी दस्तावेज़ सामग्री पर क्लस्टर करने के बजाय, सार/सारांश पर क्लस्टर करने का प्रयास करें या उन पर महत्वपूर्ण कीवर्ड और क्लस्टर निकालने का प्रयास करें।