Sparkの"Hadoop Free"ビルドの使用

SparkはHDFSおよびYARNのためのHadoopクライアントライブラリを使います。Spark1.4のバージョンから、プロジェクトは単一のSparkバイナリを任意のHadoopバージョンにもっと簡単に接続させる"Hadoop free"ビルドをパッケージします。これらのビルドを使うには、Hadoopのパッケージjarを含めるためにSPARK_DIST_CLASSPATH を修正する必要があります。これを行うもっとも便利な場所はconf/spark-env.shに記入することです。

このページは異なる種類のディストリビューションのためにSparkがHadoopにどうやって接続するかを説明します。

Apache Hadoop

Apacheの配布物の場合、Hadoopの'classpath'コマンドを使うことができます。例えば:

### in conf/spark-env.sh ###

# If 'hadoop' binary is on your PATH
export SPARK_DIST_CLASSPATH=$(hadoop classpath)

# With explicit path to 'hadoop' binary
export SPARK_DIST_CLASSPATH=$(/path/to/hadoop/bin/hadoop classpath)

# Passing a Hadoop configuration directory
export SPARK_DIST_CLASSPATH=$(hadoop --config /path/to/configs classpath)