将 PySpark 字符串转换为日期格式
您有一个 PySpark DataFrame,其中包含 MM-dd-yyyy 格式的字符串列,并且您需要将其转换为日期
解决方案:
要将 PySpark 字符串列转换为日期列,可以使用 to_date 函数。但是,如果您使用的是较旧版本的 Spark (
Spark 的替代方法2.2:
使用 unix_timestamp 和 from_unixtime 函数的组合:from pyspark.sql.functions import unix_timestamp, from_unixtime # Example DataFrame with string dates df = spark.createDataFrame( [("11/25/1991",), ("11/24/1991",), ("11/30/1991",)], ["date_str"] ) # Convert to timestamps df2 = df.select( "date_str", from_unixtime(unix_timestamp("date_str", "MM/dd/yyy")).alias("date") )这将创建一个名为 date 的新列,其中包含从字符串列转换的日期对象。
以上是如何将 PySpark 字符串列转换为日期列?的详细内容。更多信息请关注PHP中文网其他相关文章!