आपको इस पुस्तकालय का लाभ उठाने की आवश्यकता है:https://github.com/RedisLabs/spark-redisaसाथ में संबंधित जार की आवश्यकता है (इस पर निर्भर करता है कि आप किस स्पार्क + स्कैला का उपयोग कर रहे हैं)।
मेरे मामले में मैंने स्पार्क क्लस्टर (स्कैला =2.12) नवीनतम स्पार्क पर 3 जार स्थापित किए हैं:
- spark_redis_2_12_2_6_0.jar
- commons_pool2_2_10_0.jar
- jedis_3_6_0.jar
रेडिस से कनेक्ट करने के लिए कॉन्फ़िगरेशन के साथ:
क्लस्टर कॉन्फिडेंस सेटअप
spark.redis.auth PASSWORD
spark.redis.port 6379
spark.redis.host xxxx.xxx.cache.windows.net
सुनिश्चित करें कि आपके पास नीला रेडिस 4.0 है, पुस्तकालय में 6.0 के साथ समस्या हो सकती है। पुश करने के लिए नमूना कोड:
from pyspark.sql.types import StructType, StructField, StringType
schema = StructType([
StructField("id", StringType(), True),
StructField("colA", StringType(), True),
StructField("colB", StringType(), True)
])
data = [
['1', '8', '2'],
['2', '5', '3'],
['3', '3', '1'],
['4', '7', '2']
]
df = spark.createDataFrame(data, schema=schema)
df.show()
--------------
(
df.
write.
format("org.apache.spark.sql.redis").
option("table", "mytable").
option("key.column", "id").
save()
)