さかもとのブログ

つらつらと

pysparkをpython3で動かす時

pysparkをpython3で動かそうとすると、下記のエラーが出て困っていた。cloudera5.7.0。 RDDの集約系が動かない。

[SPARK-13330] PYTHONHASHSEED is not propgated to python worker - ASF JIRA

下記が原因。 https://github.com/apache/spark/blob/v1.6.0/python/pyspark/rdd.py#L73

で、PYTHONHASHSEED=0を設定できればいいのだけれど、executorにも設定しないとだめで、どうしたらいいんだと思っていたら、confで設定できた。

export PYSPARK_PYTHON=~/py3spark/bin/python
pyspark --conf "spark.executorEnv.PYTHONHASHSEED=0"