pyspark入门
时间: 2020-07-17来源:OSCHINA
python脚本方式执行spark程序,好处是不用编译,写完就走!
示例脚本如下: from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("myTest").setMaster("local") sc = SparkContext(conf=conf) x = [1,2,3] rdd = sc.parallelize(x) count=rdd.count() print("len=",count) # read textfile rdd2=sc.textFile("c:\\spark\\doc\\word.txt") def f(x):return print(x) rdd2.foreach(f) print("rdd2:",rdd2.count())
保存为"test1.py"文件。然后执行spark-submit test1.py提交执行即可。
pyspark比scala方式要方便多了。
word.txt内容:
hello
world
1
执行结果:
len= 3
hello
workd
1
rdd2: 3

热门排行