एक वेबसाइट सेवा द्वारा उपयोग के लिए मोंगो/मेमकैच्ड में स्पार्क डेटा लोड करें

आप इस तरह से सीधे RDD को क्वेरी नहीं कर सकते। एक स्ट्रीम प्रोसेसर के रूप में अपने स्पार्क जॉब के बारे में सोचें। आप क्या कर सकते हैं अद्यतन मॉडल को कुछ "स्टोर" पर धक्का दें, जैसे डेटाबेस (कस्टम एपीआई या जेडीबीसी के साथ), एक फाइल सिस्टम, या memcached। आप स्पार्क कोड के भीतर से वेब सेवा कॉल भी कर सकते हैं।

आप जो कुछ भी करते हैं, सावधान रहें कि I/O सहित डेटा के प्रत्येक बैच को संसाधित करने का समय आपके द्वारा निर्दिष्ट अंतराल समय से कम है। अन्यथा, आप बाधाओं का जोखिम उठाते हैं जो अंततः दुर्घटनाग्रस्त हो सकती हैं।

देखने के लिए एक और बात यह है कि जहां आपके पास क्लस्टर में फैले एक से अधिक आरडीडी विभाजन में आपका मॉडल डेटा है, (जो कि निश्चित रूप से डिफ़ॉल्ट है)। यदि आपके "रिकॉर्ड्स" का क्रम मायने नहीं रखता है, तो उन्हें समानांतर में लिखना ठीक है। यदि आपको क्रमिक रूप से लिखे गए एक विशिष्ट कुल आदेश की आवश्यकता है (और डेटा वास्तव में बड़ा नहीं है), collect पर कॉल करें उन्हें अपने ड्राइवर कोड के अंदर एक इन-मेमोरी डेटा संरचना में लाने के लिए (जिसका अर्थ होगा वितरित कार्य में नेटवर्क ट्रैफ़िक), फिर वहां से लिखें।