hadoop
pysparkをpython3で動かそうとすると、下記のエラーが出て困っていた。cloudera5.7.0。 RDDの集約系が動かない。 [SPARK-13330] PYTHONHASHSEED is not propgated to python worker - ASF JIRA 下記が原因。 https://github.com/apache/spark/blob/v1.6.0/py…
今更yarnで?ですが、今導入しようしていて、そのメモ。 基本的にはTuning YARNの項目だけなんだけど、yarnになってから細かく設定出来るかわりに複雑だねー、というところ。 URLにシートがあって、そこにスペックとかを入れると、関係するパラメータの数字…
もはやhive cliは WARNING: Hive CLI is deprecated and migration to Beeline is recommended. となっていますが、CDH5系にアップグレードしたところ、hiveを起動すると WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release()…