古いものからの移設ガイド - spark.mllib

最新のSparkバージョンのための移行ガイドはMLlib プログラミングガイドメインページにあります。

1.4から1.5

spark.mllib パッケージの中では、幾つかの挙動の変更がありますが、APIを損なう変更はありません。

SPARK-9005: RegressionMetrics.explainedVariance は二乗の平均回帰合計を返します。
SPARK-8600: NaiveBayesModel.labels ソートされるようになりました。
SPARK-3382: GradientDescent は 1e-3の集約の許容範囲を持ち、従って繰り返しは1.4よりも速く終わるでしょう。

spark.ml パッケージの中では、一つのAPIを損なう変更と、一つの挙動の変更があります:

SPARK-9268: Java の varargsサポートは Scala compiler bugによりParams.setDefaultから削除されます。
SPARK-10097: Evaluator.isLargerBetter が測定の順番を示すために追加されます。RMSEのような測定は1.4でのように符号をフリップしません。

1.3から1.4

spark.mllibパッケージの中では、幾つかの非互換の変更がありますが、全ては開発中のAPI あるいは 実験的な API です。

勾配ブースト木
- (非互換の変更) Loss.gradient メソッドの定義が変更されました。これはGBTのために独自のlossを書いたユーザのみに問題があります。
- (非互換の変更) ケースクラス項目の修正のために、ケースクラス BoostingStrategy のためのapply および copy メソッドが変更されました。 class fields. これはGBTパラメータを設定するために BoostingStrategyを使用するユーザのみに問題があります。
(非互換の変更) LDA.runの返り値が変更されました。今は、具象クラスDistributedLDAModel の代わりに、抽象クラス LDAModel が返されます。オブジェクトタイプLDAModel はまだ適切な具象タイプにキャストされます。これは最適化アルゴリズムに依存します。

spark.ml パッケージの中では、幾つかの主要なAPIの変更がありました。以下を含みます:

Param とパラメータを指定するための他のAPI
uid パイプラインコンポーネントのためのユニークなID
特定のクラスの再編成

spark.ml API はSPark1.3でアルファコンポーネントだったため、ここでは全ての変更をリスト化しません。しかし、1.4からのspark.mlはもうアルファコンポーネントではないため、将来のリリースのためのAPIの変更の詳細を提供するつもりです。

1.2から1.3

spark.mllibパッケージの中で、幾つかの断絶となる変更がありました。最初の変更(ALS) はアルファあるいは実験的として印を付けてられなかったコンポーネントの中で唯一のものです。

(断絶となる変更) ALSの中で、異質なメソッドsolveLeastSquares が削除されました。DeveloperApi メソッド analyzeBlocks も削除されました。
(断絶となる変更) StandardScalerModel はアルファコンポーネントのままです。その中で、variance メソッドが std メソッドと置き換えられました。元のvarianceメソッドによって返されるカラムの分散を計算するためには、単純にstdによって返される偏差を平方します。
(断絶となる変更) StreamingLinearRegressionWithSGD は実験的なコンポーネントのままです。その中で、2つの変更がありました:
- デフォルトのコンストラクタにパラメータのsetterメソッドを使うビルダーパターンが指示されて、引数を取るコンストラクタが削除されました。
- 変数modelはもうpublicではありません。
(断絶となる変更) DecisionTree は実験的なコンポーネントのままです。その中とそれに関連するクラスで、幾つかの変更がありました:
- DecisionTreeの中で、非推奨のクラスメソッドtrain が削除されました。(object/static train メソッドは残っています。)
- Strategyの中で、checkpointDirパラメータが削除されました。Checkpointingはまだサポートされていますが、ツリーおよびツリーのアンサンブル訓練の前に checkpoint ディレクトリが設定されなければなりません。
PythonMLlibAPI (MLLib のための Scala/Java と Python 間のインタフェース) はpublic API でしたが、今ではprivateです。これは外部利用のためのものではありませんでした。
線形回帰(ラッソとリッジ回帰を含む)で、今は二乗損失は2で割り算されます。つまり、1.2と同じ結果を生成するためには、正規化パラメータは2で割られ、ステップサイズは2倍される必要があります。

spark.ml パッケージで、Spark SQLの主要なAPIの変更があります。最も重要な変更を以下にリスト化します:

古いSchemaRDD は幾分修正されたAPIのDataFrame に置き換えられました。SchemaRDDで使われていたSpark MLの全てのアルゴリズムが今はDataFrameを使います。
Spark 1.2で、sqlContextがSQLContextのインスタンスであるimport sqlContext._を呼び出すことで .LabeledPointのRDDから SchemaRDDへの暗黙の変換を使用していました。これらの暗黙の変換は削除され、今ではimport sqlContext.implicits._を呼びます。
SQLのためのJava APIもそれに従って変更されました。詳細については、上の例と Spark SQL プログラミングガイドを見てください。

他の変更はLogisticRegressionです:

scoreCol 出力カラム(デフォルトは"score")はprobabilityCol (デフォルトは"probability")に名前が変わりました。もともとは種類が Double (クラス 1.0の確率のため)でしたが、今はVector (将来的に各クラスの確率が多クラス分類をサポートするため)です。
Spark 1.2 では、LogisticRegressionModel はインターセプトを含みませんでした。Spark 1.3では、インターセプトを含みます; しかし、spark.mllib.LogisticRegressionWithLBFGSのためのデフォルトの設定を使うため、常に0.0でしょう。将来的にはインターセプトを使うためのオプションが追加されるでしょう。

1.1から1.2

MLlib v1.2での唯一のAPIの変更は DecisionTreeで、これはMLlib 1.2の実験的なAPIのままです。

(断絶となる変更) 分類のためのScala APIはクラスの数を指定する名前付きの引数を取ります。MLlib v1.1 では、この引数はPythonではnumClassesと呼ばれ、ScalaではnumClassesForClassification と呼ばれます。MLlib v1.2では、両方の名前がnumClassesに設定されます。この numClasses パラメータは Strategy、あるいは DecisionTree static trainClassifier とtrainRegressorメソッドを使って指定されます。
(断続となる変更) NodeのためのAPIが変更されました。(trainClassifier あるいは trainRegressor メソッドを使う代わりに)ユーザが手動で決定木を構築していない場合は、これは一般的にユーザコードには影響しません。ツリーのNodeは、予想されたラベルの確率(分類のため)を含むより多くの情報を、今は含んでいます。
Printing メソッドの出力が代わりました。toString (Scala/Java) と__repr__ (Python) メソッドが完全なモデルを出力するために使われていました; 居mあは概要を出力します。完全なモデルについては、toDebugStringを使ってください。

Spark配布物の中の例と、決定木のガイドの中の例が、それに応じて更新されました。

1.0から1.1

MLlib v1.1での唯一のAPIの変更は DecisionTreeで、これはMLlib 1.1の実験的なAPIのままです。

(Breaking change) The meaning of tree depth has been changed by 1 in order to match the implementations of trees in scikit-learn and in rpart. MLlib v1.0では、深さ1の木は1つの葉を持ち、深さ2の木は1つのrootノードと2つの葉ノードを持っていました。MLlib v1.1では、a 深さ0の木は1つの葉を持ち、深さ1の木は1つのノードと2つの葉ノードを持ちます。この深さはStrategyでのmaxDepth パラメータ、あるいは DecisionTree static trainClassifier と trainRegressor メソッドによって指定されます。
(断絶となる変更) DecisionTreeを構築するためには、古いパラメータクラスStrategyの使用ではなく、新しく追加されたtrainClassifier とtrainRegressor メソッドを使うことをお勧めします。これらの新しい訓練メソッドは明示的に分類と回帰を分割し、それらは特別なパラメータタイプを単純なStringタイプに置き換えます。

お勧めのtrainClassifier と trainRegressor の新しい例は、決定木ガイドの中で与えられます。

0.0から1.0

MLlib v1.0では、統一された方法でdenseとsparseの両方をサポートします。これは新しい断絶となる変更を導入します。もしデータがsparseであれば、ストレージおよび計算の両方でのまばらさを利用するために、denseの代わりにsparse形式でそれを格納してください。詳細は以下で説明されます。

spark.ml パッケージ