MongoDB
 sql >> डेटाबेस >  >> NoSQL >> MongoDB

मोंगो स्पार्क कनेक्टर एक क्वेरी के लिए अलग और गलत गणना क्यों देता है?

मैंने अपना मसला हल कर लिया। असंगत गणनाओं का कारण था MongoDefaultPartitioner जो MongoSamplePartitioner . को लपेटता है जो रैंडम सैंपलिंग का उपयोग करता है। सच कहूं तो यह मेरे लिए काफी अजीब डिफ़ॉल्ट है। मैं व्यक्तिगत रूप से इसके बजाय एक धीमा लेकिन एक सुसंगत विभाजनकर्ता रखना पसंद करूंगा। पार्टीशनर विकल्पों का विवरण आधिकारिक कॉन्फ़िगरेशन विकल्पों में पाया जा सकता है। दस्तावेज़ीकरण।

कोड:

val df = spark.read
  .format("com.mongodb.spark.sql.DefaultSource")
  .option("uri", "mongodb://127.0.0.1/enron_mail.messages")
  .option("partitioner", "spark.mongodb.input.partitionerOptions.MongoPaginateBySizePartitioner ")
  .load()


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. भंडारण प्रणाली। MongoDb . के साथ टाइप करें

  2. $arrayElemAt का उपयोग कैसे करें और MongoDB $ प्रोजेक्शन में उस तत्व से फ़ील्ड निकालें?

  3. सी # में मोंगोडीबी नेस्टेड $elemMatch क्वेरी को कैसे कार्यान्वित करें

  4. mongoose.find में मानदंड की गतिशील संख्या कैसे निष्पादित करें?

  5. MongoDB एकत्रीकरण फ्रेमवर्क - गतिशील क्षेत्र का नाम बदलें