首页 >Java >postgreSQL 出现问题,尝试在 Docker 上的 Jupyter Notebook 上连接 PySpark

postgreSQL 出现问题,尝试在 Docker 上的 Jupyter Notebook 上连接 PySpark

王林
王林转载
2024-02-11 20:00:111477浏览

php小编柚子近日接到用户反馈,称在使用Docker上的Jupyter Notebook连接PySpark时遇到了问题。具体问题是在连接的过程中遇到了一些与PostgreSQL相关的困扰。针对这个问题,我们将为大家提供解决方案和操作步骤,以帮助用户顺利连接PySpark并解决问题。在本文中,我们将详细介绍如何使用Docker上的Jupyter Notebook连接PySpark,并提供一些常见问题的解决方法,希望能对大家有所帮助。

问题内容

我遇到了这个问题 py4jjavaerror: 调用 o124.save 时发生错误。 :org.postgresql.util.psqlexception:与 localhost:5432 的连接被拒绝。检查主机名和端口是否正确,以及 postmaster 是否接受 tcp/ip 连接。 当我在 jupyter notbook 上运行此 pysark 代码并使用 docker 运行所有内容时,postgresql 将安装在本地计算机(windows)中。

from pyspark.sql import SparkSession
from pyspark.sql.functions import lit, col, explode
import pyspark.sql.functions as f

spark = SparkSession.builder.appName("ETL Pipeline").config("spark.jars", "./postgresql-42.7.1.jar").getOrCreate()
df = spark.read.text("./Data/WordData.txt")

df2 = df.withColumn("splitedData", f.split("value"," "))
df3 = df2.withColumn("words", explode("splitedData"))
wordsDF = df3.select("words")
wordCount = wordsDF.groupBy("words").count()

driver = "org.postgresql.Driver"
url = "jdbc:postgresql://localhost:5432/local_database"
table = "word_count"
user = "postgres"
password = "12345"

wordCount.write.format("jdbc") \
    .option("driver", driver) \
    .option("url", url) \
    .option("dbtable", table) \
    .option("mode", "append") \
    .option("user", user) \
    .option("password", password) \
    .save()

spark.stop()

我尝试编辑 postgresql.conf 添加“listen_addresses = 'localhost'”并编辑 pg_hba.conf 添加“host all all 0.0.0.0/0 md5”,但它对我不起作用,所以我不知道该怎么做做。

解决方法

我也解决了在 docker 上安装 PostgreSQL 的问题(使用此图像 https://hub.docker .com/_/postgres/ 仅为 postgres 创建一个容器)并使用命令在 PySpark 容器和 postgreSQL 容器之间创建网络

docker网络创建my_network

此命令用于 postgres 容器

docker run --name postgres_container --network my_network -e POSTGRES_PASSWORD=12345 -d -p 5432:5432 postgres:latest

这个用于 Jupyter-pyspark 容器

docker run --name jupyter_container --network my_network -it -p 8888:8888 -v C:homeworkpath:/home/jovyan/work jupyter/pyspark-notebook:latest

以上是postgreSQL 出现问题,尝试在 Docker 上的 Jupyter Notebook 上连接 PySpark的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文转载于:stackoverflow.com。如有侵权,请联系admin@php.cn删除