pyspark से mongodb में लिखने का प्रभावी तरीका MongoDB का उपयोग करना है। स्पार्क कनेक्टर . कनेक्टर डेटा को बीएसओएन प्रारूप में बदल देगा और इसे मोंगोडब में सहेज देगा। मान लीजिए कि आपके पास df नाम का स्पार्क डेटाफ़्रेम है जिसे आप मोंगोडब में सहेजना चाहते हैं। आप कोशिश कर सकते हैं:
from pyspark.sql import SparkSession, SQLContext
from pyspark import SparkConf, SparkContext
sc = SparkContext()
spark = SparkSession(sc)
df.write.format("com.mongodb.spark.sql.DefaultSource").mode("append").option("spark.mongodb.output.uri","mongodb://username:[email protected]_details:27017/db_name.collection_name?authSource=admin").save()
यदि आप नोटबुक का उपयोग कर रहे हैं तो इसे सबसे ऊपर लिखें-
%%configure
{"conf": {"spark.jars.packages": "org.mongodb.spark:mongo-spark-connector_2.11:2.3.2"}}
यदि आप स्पार्क-सबमिट कमांड का उपयोग कर रहे हैं:
spark-submit --conf spark.pyspark.python=/usr/bin/anaconda/envs/py35/bin/python3.5 --packages org.mongodb.spark:mongo-spark-connector_2.11:2.3.1 file_name.py