मूल रूप से आपको "आउटपुट प्रारूप वर्ग" को बदलने की आवश्यकता है, और आपके पास वहां कई तरीके हैं:
- Hadoop के लिए MongoDB कनेक्टर का उपयोग करें :http://docs.mongodb.org/ecosystem/tools /hadoop/?_ga=1.111209414.370990604.1441913822
- अपना खुद का आउटपुटफ़ॉर्मैट लागू करें :https://hadoop। apache.org/docs/r2.7.0/api/org/apache/hadoop/mapred/OutputFormat.html (इसके बजाय FileOutputFormat का उपयोग करने के लिए)।
- रेड्यूसर के अंदर मोंगोडब क्वेरी निष्पादित करें मैपरेडस संदर्भ में लिखने के बजाय (अच्छा नहीं, आप ड्राइवर में निर्दिष्ट आउटपुटफॉर्मेट के आधार पर एचडीएफएस में खाली आउटपुट फाइलों के साथ समाप्त कर सकते हैं)
मेरी राय में विकल्प 1 सबसे अच्छा विकल्प है, लेकिन मैंने यह कहने के लिए MongoDB कनेक्टर का उपयोग नहीं किया है कि क्या यह पर्याप्त स्थिर और कार्यात्मक है। विकल्प 2 के लिए आवश्यक है कि आप वास्तव में समझें कि बहुत सारे खुले कनेक्शन और लेन-देन और हडूप कार्यों के साथ समस्याओं के अंत से बचने के लिए अंडरहुड कैसे काम कर रहा है।