pysparkをpython3で動かす時
pysparkをpython3で動かそうとすると、下記のエラーが出て困っていた。cloudera5.7.0。 RDDの集約系が動かない。
[SPARK-13330] PYTHONHASHSEED is not propgated to python worker - ASF JIRA
下記が原因。 https://github.com/apache/spark/blob/v1.6.0/python/pyspark/rdd.py#L73
で、PYTHONHASHSEED=0
を設定できればいいのだけれど、executorにも設定しないとだめで、どうしたらいいんだと思っていたら、confで設定できた。
export PYSPARK_PYTHON=~/py3spark/bin/python pyspark --conf "spark.executorEnv.PYTHONHASHSEED=0"