MongoDB
 sql >> डेटाबेस >  >> NoSQL >> MongoDB

डेटाफ़्रेम के लिए BSONObject का RDD

val datapath = "path_to_bson_file.bson" 

import org.apache.hadoop.conf.Configuration

// Set up the configuration for reading from bson dump.
val bsonConfig = new Configuration()
bsonConfig.set("mongo.job.input.format", "com.mongodb.hadoop.BSONFileInputFormat")

// given with your spark session 
implicit lazy val sparkSession = initSpark()

// read the RDD[org.bson.BSONObject]
val bson_data_as_json_string = sparkSession.sparkContext.newAPIHadoopFile(datapath,
  classOf[com.mongodb.hadoop.BSONFileInputFormat].
    asSubclass(classOf[org.apache.hadoop.mapreduce.lib.input.FileInputFormat[Object, org.bson.BSONObject]]),
  classOf[Object],
  classOf[org.bson.BSONObject],
  bsonConfig).
  map{row => {
    // map BSON object to JSON string
    val json = com.mongodb.util.JSON.serialize(row._2)
    json
  }
}

// read into JSON spark Dataset:
val bson_data_as_json_dataset = sparkSession.sqlContext.read.json(bson_data_as_json_string)
// eval the schema:
bson_data_as_json_dataset.printSchema()


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. मोंगोडब में कुल लुकअप के बाद आईडी की गहराई से नेस्टेड सरणी कैसे पॉप्युलेट करें?

  2. MongoDB C# - एक ऐसे तत्व के लिए BsonDocument प्राप्त करना जो मौजूद नहीं है

  3. एक कैप्ड MongoDB संग्रह को अनकैप करें

  4. लारवेल 4:क्लास 'मोंगो क्लाइंट' नहीं मिला

  5. मेरे MongoDB क्वेरी से मान कैसे प्राप्त करें एक const