mysql तालिका को स्पार्क डेटासेट में कनवर्ट करना csv फ़ाइल की तुलना में बहुत धीमा है

StackOverflow पर इस समस्या को कई बार कवर किया गया है:

और बाहरी स्रोतों में:

https://github. com/awesome-spark/spark-gotchas/blob/master/05_spark_sql_and_dataset_api.md#parallelizing-reads

तो बस दोहराने के लिए - डिफ़ॉल्ट रूप से DataFrameReader.jdbc डेटा वितरित नहीं करता है या पढ़ता है। यह सिंगल थ्रेड, सिंगल एक्जेक्टर का उपयोग करता है।

पठन वितरित करने के लिए:

lowerBound के साथ श्रेणियों का उपयोग करें / upperBound :

Properties properties;
Lower

Dataset<Row> set = sc
    .read()
    .option("partitionColumn", "foo")
    .option("numPartitions", "3")
    .option("lowerBound", 0)
    .option("upperBound", 30)
    .option("url", url)
    .option("dbtable", this.tableName)
    .option("driver","com.mysql.jdbc.Driver")
    .format("jdbc")
    .load();

predicates

Properties properties;
Dataset<Row> set = sc
    .read()
    .jdbc(
        url, this.tableName,
        {"foo < 10", "foo BETWWEN 10 and 20", "foo > 20"},
        properties
    )