आप इस तरह से सीधे RDD को क्वेरी नहीं कर सकते। एक स्ट्रीम प्रोसेसर के रूप में अपने स्पार्क जॉब के बारे में सोचें। आप क्या कर सकते हैं अद्यतन मॉडल को कुछ "स्टोर" पर धक्का दें, जैसे डेटाबेस (कस्टम एपीआई या जेडीबीसी के साथ), एक फाइल सिस्टम, या memcached। आप स्पार्क कोड के भीतर से वेब सेवा कॉल भी कर सकते हैं।
आप जो कुछ भी करते हैं, सावधान रहें कि I/O सहित डेटा के प्रत्येक बैच को संसाधित करने का समय आपके द्वारा निर्दिष्ट अंतराल समय से कम है। अन्यथा, आप बाधाओं का जोखिम उठाते हैं जो अंततः दुर्घटनाग्रस्त हो सकती हैं।
देखने के लिए एक और बात यह है कि जहां आपके पास क्लस्टर में फैले एक से अधिक आरडीडी विभाजन में आपका मॉडल डेटा है, (जो कि निश्चित रूप से डिफ़ॉल्ट है)। यदि आपके "रिकॉर्ड्स" का क्रम मायने नहीं रखता है, तो उन्हें समानांतर में लिखना ठीक है। यदि आपको क्रमिक रूप से लिखे गए एक विशिष्ट कुल आदेश की आवश्यकता है (और डेटा वास्तव में बड़ा नहीं है), collect
पर कॉल करें उन्हें अपने ड्राइवर कोड के अंदर एक इन-मेमोरी डेटा संरचना में लाने के लिए (जिसका अर्थ होगा वितरित कार्य में नेटवर्क ट्रैफ़िक), फिर वहां से लिखें।