Sparkの"Hadoop Free"ビルドの使用
SparkはHDFSおよびYARNのためのHadoopクライアントライブラリを使います。Spark1.4のバージョンから、プロジェクトは単一のSparkバイナリを任意のHadoopバージョンにもっと簡単に接続させる"Hadoop free"ビルドをパッケージします。これらのビルドを使うには、Hadoopのパッケージjarを含めるためにSPARK_DIST_CLASSPATH
を修正する必要があります。これを行うもっとも便利な場所はconf/spark-env.sh
に記入することです。
このページは異なる種類のディストリビューションのためにSparkがHadoopにどうやって接続するかを説明します。
Apache Hadoop
Apacheの配布物の場合、Hadoopの'classpath'コマンドを使うことができます。例えば: