उपयोग करके:
sc.parallelize(startDate to endDate)
प्रारूप द्वारा दिनांकों से उत्पन्न प्रारंभ डेटा और समाप्ति दिनांक के रूप में:
("yyyy-MM-dd HH:mm:ss")
मैंने सी * टेबल के साथ जुड़ने के लिए एक विशाल सरणी (100,000+ ऑब्जेक्ट्स) बनाने के लिए स्पार्क बनाया और यह बिल्कुल अटक नहीं गया- सी * ने शामिल होने और डेटा वापस करने के लिए कड़ी मेहनत की।
अंत में, मैंने अपनी सीमा को इसमें बदल दिया:
case class TableKey(created_dh: String)
val data = Array("2015-10-29 12:00:00", "2015-10-29 13:00:00", "2015-10-29 14:00:00", "2015-10-29 15:00:00")
val snapshotsFiltered = sc.parallelize(data, 2).map(TableKey(_)).joinWithCassandraTable("listener","snapshots_tnew")
और अब ठीक है।