Sparkの"Hadoop Free"ビルドの使用
SparkはHDFSおよびYARNのためのHadoopクライアントライブラリを使います。Spark1.4のバージョンから、プロジェクトは単一のSparkバイナリを任意のHadoopバージョンにもっと簡単に接続させる"Hadoop free"ビルドをパッケージします。これらのビルドを使うには、Hadoopのパッケージjarを含めるためにSPARK_DIST_CLASSPATH
を修正する必要があります。これを行うもっとも便利な場所はconf/spark-env.sh
に記入することです。
このページは異なる種類のディストリビューションのためにSparkがHadoopにどうやって接続するかを説明します。
Apache Hadoop
Apacheの配布物の場合、Hadoopの'classpth'コマンドを使うことができます。例えば:
### in conf/spark-env.sh ###
# If 'hadoop' binary is on your PATH
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
# With explicit path to 'hadoop' binary
export SPARK_DIST_CLASSPATH=$(/path/to/hadoop/bin/hadoop classpath)
# Passing a Hadoop configuration directory
export SPARK_DIST_CLASSPATH=$(hadoop --config /path/to/configs classpath)