spark能跑Python麼?
spark是可以跑Python程式的。 python寫好的演算法,或是擴充函式庫的,像是sklearn都可以在spark上跑。直接使用spark的mllib也是可以的,大部分演算法都有。
Spark 是一個通用引擎,可用它來完成各種各樣的運算,包括 SQL 查詢、文字處理、機器學習等。
本實驗是搭有spark環境的linux下跑的,spark版本為1.6.1,相當於在spark本地執行,spark檔案放在/opt/moudles/spark-1.6.1/ (程式碼中會看到)
編寫python測試程式
#test.py文件 # -*- coding:utf-8 -*- import os import sys #配置环境变量并导入pyspark os.environ['SPARK_HOME'] = r'/opt/moudles/spark-1.6.1' sys.path.append("/opt/moudles/spark-1.6.1/python") sys.path.append("/opt/moudles/spark-1.6.1/python/lib/py4j-0.9-src.zip") from pyspark import SparkContext, SparkConf appName ="spark_1" #应用程序名称 master= "spark://hadoop01:7077"#hadoop01为主节点hostname,请换成自己的主节点主机名称 conf = SparkConf().setAppName(appName).setMaster(master) sc = SparkContext(conf=conf) data = [1, 2, 3, 4, 5] distData = sc.parallelize(data) res = distData.reduce(lambda a, b: a + b) print("===========================================") print (res) print("===========================================")
執行python程式
執行如下指令
python test.py
執行與結果分別如下圖所示:
以上是spark能跑Python麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!