移設ガイド: MLlib (機械学習)

MLlib 2.4 から 3.0 へのアップグレード
MLlib 2.2 から 2.3 へのアップグレード
MLlib 2.1 から 2.2 へのアップグレード
MLlib 2.0 から 2.1 へのアップグレード
MLlib 1.6 から 2.0 へのアップグレード
MLlib 1.5 から 1.6 へのアップグレード
MLlib 1.4 から 1.5 へのアップグレード
MLlib 1.3 から 1.4 へのアップグレード
MLlib 1.2 から 1.3 へのアップグレード
MLlib 1.1 から 1.2 へのアップグレード
MLlib 1.0 から 1.1 へのアップグレード
MLlib 0.9 から 1.0 へのアップグレード

この移設ガイドは MLlib に特有の項目を説明することに注意してください。MLlib をデータフレームベースの API の上位バージョンに移設する場合、SQL 移設の多くの項目を適用できます。移設ガイド: SQL, データセットおよびデータフレームを参照してください。

MLlib 2.4 から 3.0 へのアップグレード

破壊的な変更

2.3 で非推奨になった OneHotEncoder は 3.0 で削除され、OneHotEncoderEstimator は OneHotEncoder に名前が変更されました。
2.3 で非推奨になった org.apache.spark.ml.image.ImageSchema.readImages は 3.0 で削除されました。代わりに spark.read.format('image') を使ってください。
2.1 で非推奨になったパラメータ Int runs 付きの org.apache.spark.mllib.clustering.KMeans.train は 3.0 で削除されました。代わりに runs 無しの train メソッドを使ってください。
2.0 で非推奨になった org.apache.spark.mllib.classification.LogisticRegressionWithSGD は 3.0 で削除されました。代わりに org.apache.spark.ml.classification.LogisticRegression または spark.mllib.classification.LogisticRegressionWithLBFGS を使ってください。
2.1 で非推奨になった org.apache.spark.mllib.feature.ChiSqSelectorModel.isSorted は 3.0 で削除され、サブクラスでの使用は意図されていません。
2.0 で非推奨になった org.apache.spark.mllib.regression.RidgeRegressionWithSGD は 3.0 で削除されました。elasticNetParam = 0.0 付きで org.apache.spark.ml.regression.LinearRegression を使ってください。RidgeRegressionWithSGD のデフォルトの regParam は 0.01 ですが、LinearRegression では 0.0 です。
2.0 で非推奨になった org.apache.spark.mllib.regression.LassoWithSGD は 3.0 で削除されました。elasticNetParam = 1.0 付きの org.apache.spark.ml.regression.LinearRegression を使ってください。LassoWithSGD のデフォルトの regParam は 0.01 ですが、LinearRegression では 0.0 です。
2.0 で非推奨になった org.apache.spark.mllib.regression.LinearRegressionWithSGD は 3.0 で削除されました。代わりに org.apache.spark.ml.regression.LinearRegression または LBFGS を使ってください。
2.1 で非推奨になった org.apache.spark.mllib.clustering.KMeans.getRuns と setRuns は 3.0 で削除されました。Spark 2.0 以降では効果がありません。
2.4 で非推奨になった org.apache.spark.ml.LinearSVCModel.setWeightCol は 3.0 で削除されました。これはユーザ向けではありません。
3.0 から、org.apache.spark.ml.classification.MultilayerPerceptronClassificationModel は訓練パラメータを公開するために MultilayerPerceptronParams を拡張します。結果として、MultilayerPerceptronClassificationModel の layers は、Array[Int] から IntArrayParam に変わりました。レイヤーのサイズを取得するには、MultilayerPerceptronClassificationModel.layers の代わりに MultilayerPerceptronClassificationModel.getLayers を使ってください。
2.4.5 で非推奨になった org.apache.spark.ml.classification.GBTClassifier.numTrees は 3.0 で削除されました。代わりに getNumTrees を使ってください。
2.4 で非推奨になった org.apache.spark.ml.clustering.KMeansModel.computeCost 3.0 で削除されました。代わりに ClusteringEvaluator を使ってください。
2.0 で非推奨になった org.apache.spark.mllib.evaluation.MulticlassMetrics のメンバー変数 precision は 3.0 で削除されました。代わりに accuracy を使ってください。
2.0 で非推奨になった org.apache.spark.mllib.evaluation.MulticlassMetrics のメンバー変数 recall は 3.0 で削除されました。代わりに accuracy を使ってください。
2.0 で非推奨になった org.apache.spark.mllib.evaluation.MulticlassMetrics のメンバー変数 fMeasure は 3.0 で削除されました。代わりに accuracy を使ってください。
2.0 で非推奨になった org.apache.spark.ml.util.GeneralMLWriter.context 3.0 で削除されました。代わりに session を使ってください。
2.0 で非推奨になった org.apache.spark.ml.util.MLWriter.context 3.0 で削除されました。代わりに session を使ってください。
2.0 で非推奨になった org.apache.spark.ml.util.MLReader.context 3.0 で削除されました。代わりに session を使ってください。
abstract class UnaryTransformer[IN, OUT, T <: UnaryTransformer[IN, OUT, T]] は 3.0 で abstract class UnaryTransformer[IN: TypeTag, OUT: TypeTag, T <: UnaryTransformer[IN, OUT, T]] に変更されました。

非推奨と挙動の変更

非推奨

SPARK-11215: StringIndexerModel の labels は非推奨になり、3.1.0 で削除されます。代わりに labelsArray を使ってください。
SPARK-25758: BisectingKMeansModel の computeCost は非推奨になり、将来のバージョンで削除される予定です。代わりに ClusteringEvaluator を使ってください。

挙動の変更

SPARK-11215: Spark 2.4 以前のバージョンで、StringIndexer の stringOrderType として frequencyDesc または frequencyAsc を指定する場合、頻度が等しい場合は、文字列の順番は未定義です。Spark 3.0 から、頻度が等しい文字列はさらにアルファベット順にソートされます。また、Spark 3.0 から、StringIndexer は複数の列のエンコードをサポートします。
SPARK-20604: 3.0 より前のリリースでは、Imputer は入力列が Double または Float である必要があります。3.0 では、この制限が解除され、Imputer は全ての数値タイプを処理できるようになりました。
SPARK-23469: Spark 3.0 では、HashingTF 変換器は、murmur3 ハッシュ関数の修正された実装を使って、要素をベクトルにハッシュ化します。Spark 3.0 の HashingTF は要素を Spark 2 のベクトルと異なる場所にマップします。ただし、Spark 2.0 で作成され、Spark 3.0 でロードされた HashingTF は、以前のハッシュ関数を使い、動作を変更しません。
SPARK-28969: PySpark の OneVsRestModel の setClassifier メソッドは、Scala 実装との同等性のために 3.0 で削除されました。呼び出し元は作成後にモデルに分類器を設定する必要はありません。
SPARK-25790: PCA は、Spark 3.0 で 65535 を超える列マトリックスのサポートを追加します。
SPARK-28927: ALS モデルを非決定的な入力データに当てはめると、以前は再実行が発生した場合、In/Out ユーザ/アイテムブロック間の不一致が原因で ArrayIndexOutOfBoundsException が表示されました。3.0 から、より明確なメッセージを含む SparkException が投げられ、元の ArrayIndexOutOfBoundsException がラップされます。
SPARK-29232: 3.0 より前のリリースでは、RandomForestRegressionModel はその下の DecisionTreeRegressionModels のパラメータのマップを更新しません。これは 3.0 で修正されました。

MLlib 2.2 から 2.3 へのアップグレード

破壊的な変更

ロジスティック回帰モデルのサマリのためのクラスとトレイトの階層が、多数クラスサマリの追加を綺麗により良く提供するように変更されました。これはLogisticRegressionTrainingSummary を BinaryLogisticRegressionTrainingSummary にキャストするユーザコードにとって破壊的な変更です。ユーザは代わりにmodel.binarySummary メソッドを使う必要があります。詳細は SPARK-17139 を見てください (注意これは実験的な APIです)。これは Python のsummaryメソッドに影響しません。多項式および二項の両方でまだ正しく動作するでしょう。

非推奨と挙動の変更

非推奨

OneHotEncoder は非推奨になり、3.0で削除されるでしょう。新しいOneHotEncoderEstimatorによって置き換えられました (SPARK-13030を見てください)。OneHotEncoderEstimator は3.0でOneHotEncoderに名前が変えられるだろうことに注意してください (しかし OneHotEncoderEstimatorはエイリアスとして保持されるでしょう)。

挙動の変更

SPARK-21027: OneVsRestで使われるデフォルトの並行度は今では1に設定されます (つまり連続)。2.2 とそれ以前のバージョンでは、並行度のレベルはScalaでのデフォルトのスレッドプールのサイズに設定されていました。
SPARK-22156: numIterationsが1より大きく設定された場合に、Word2Vecのための学習レートの更新が間違っていました。これは、2.3 とそれより前のバージョンの間で訓練結果が異なるものにするでしょう。
SPARK-21681: 幾つかの特徴が0の分散を持つ場合に多項ロジスティック回帰の結果が間違った係数になる極端な場合のバグを修正しました。
SPARK-16957: ツリーアルゴリズムは今では分割された値の間の点を使います。これはモデルの訓練からの結果を変更するかもしれません。
SPARK-14657: 切片無しのRFormulaによって生成される特徴がRでの出力と矛盾した問題の修正。これはこのシナリオでのモデルの訓練からの結果を変えるかもしれません。

MLlib 2.1 から 2.2 へのアップグレード

破壊的な変更

破壊的な変更はありません。

非推奨と挙動の変更

非推奨

非推奨はありません。

挙動の変更

SPARK-19787: ALS.train メソッドについてのregParam のデフォルト値が 1.0 から 0.1 に変更されました。 (marked DeveloperApi). 注意これはALS 推測器あるいはモデル、またはMLlibの ALS クラスに影響ありません。
SPARK-14772: Param.copyメソッドについての Python と Scala API間の非一貫性が修正されました。
SPARK-11569: 今はStringIndexerは見たことが無い値と同じ方法で NULL 値を扱います。以前は、handleInvalid パラメータの設定に関係なく、常に例外が投げられていました。

MLlib 2.0 から 2.1 へのアップグレード

破壊的な変更

非推奨のメソッドは削除されました。

feature.ChiSqSelectorModel の setLabelCol
classification.RandomForestClassificationModel の numTrees (これは今ではnumTreesと呼ばれるパラメータを参照します)
regression.RandomForestRegressionModel の numTrees (これは今では numTreesと呼ばれるパラメータを参照します)
regression.LinearRegressionSummary の model
PipelineStage の validateParams
Evaluator の validateParams

非推奨と挙動の変更

非推奨

SPARK-18592: DecisionTreeClassificationModel, GBTClassificationModel, RandomForestClassificationModel, DecisionTreeRegressionModel, GBTRegressionModel および RandomForestRegressionModel についての入力/出力カラムのパラメータを除いて、全てのパラメータのsetterメソッドが非推奨になりました

挙動の変更

SPARK-17870: 結果が変わるかも知れないChiSqSelector のバグが修正されました。今は、トップの特徴の固定数を選択するためにChiSquareSelector は生の統計の代わりに pValueを使います。
SPARK-3261: 別個の k 個の重心が利用可能ではないか、選択されなかった場合に、KMeans はkクラスター重心よりも少なく返すかもしれません。
SPARK-17389: KMeans は k-means|| 初期化モードについてデフォルトのステップ数を5から2に減らしました。

MLlib 1.6 から 2.0 へのアップグレード

破壊的な変更

Spark 2.0には幾つかの破壊的な変更がありました。それらは以下で説明されます。

データフレームベースのAPIのための線形代数クラス

Sparkの線形代数の依存物は新しいプロジェクト mllib-local に移動しました (SPARK-13944を見てください)。この変更の一部として、線形代数クラスは新しいパッケージ spark.ml.linalgにコピーされました。spark.ml内のデータフレームベースのAPI は、今は spark.ml.linalg クラスに依存し、結果として2,3の破壊的な変更を引き起こし、様々なモデルクラスの中に大部分があります (完全なリストは SPARK-14810 を見てください)。

注意: spark.mllib内のRDDベースのAPIは以前のパッケージのspark.mllib.linalgに依存し続けています。

ベクトルとマトリックスの変換

ほとんどのパイプラインコンポーネントは読み込みの後方互換性をサポートしますが、ベクトルあるいはマトリックスのカラムを含むSparkのバージョン2.0未満のいくつかの既存の DataFrames とパイプラインは、新しいspark.mlのベクトルとマトリックスの種類に移設しなければならないかも知れません。spark.mllib.linalg から spark.ml.linalgの種類にDataFrame カラムを変換するためのユーティリティ(逆もまた同じ)は、spark.mllib.util.MLUtilsで見つかります。

ベクトルとマトリックスの1つのインスタンスを変換するために利用可能なユーティリティメソッドもあります。ml.linalg の種類に変換するためにはmllib.linalg.Vector / mllib.linalg.Matrix のasMLメソッドを、mllib.linalg の種類に変換するためには mllib.linalg.Vectors.fromML / mllib.linalg.Matrices.fromML を使ってください。

import org.apache.spark.mllib.util.MLUtils

// convert DataFrame columns
val convertedVecDF = MLUtils.convertVectorColumnsToML(vecDF)
val convertedMatrixDF = MLUtils.convertMatrixColumnsToML(matrixDF)
// convert a single vector or matrix
val mlVec: org.apache.spark.ml.linalg.Vector = mllibVec.asML
val mlMat: org.apache.spark.ml.linalg.Matrix = mllibMat.asML

更に詳しくはMLUtils Scala ドキュメントを参照してください。

import org.apache.spark.mllib.util.MLUtils;
import org.apache.spark.sql.Dataset;

// convert DataFrame columns
Dataset<Row> convertedVecDF = MLUtils.convertVectorColumnsToML(vecDF);
Dataset<Row> convertedMatrixDF = MLUtils.convertMatrixColumnsToML(matrixDF);
// convert a single vector or matrix
org.apache.spark.ml.linalg.Vector mlVec = mllibVec.asML();
org.apache.spark.ml.linalg.Matrix mlMat = mllibMat.asML();

更に詳しくは MLUtils Java ドキュメントを参照してください。

from pyspark.mllib.util import MLUtils

# convert DataFrame columns
convertedVecDF = MLUtils.convertVectorColumnsToML(vecDF)
convertedMatrixDF = MLUtils.convertMatrixColumnsToML(matrixDF)
# convert a single vector or matrix
mlVec = mllibVec.asML()
mlMat = mllibMat.asML()

更に詳しくはMLUtils Python ドキュメントを参照してください。

非推奨のメソッドは削除されました。

spark.mllib とspark.ml パッケージ内のいくつかの非推奨のメソッドは削除されました。

ml.evaluation.BinaryClassificationEvaluatorのsetScoreCol
LinearRegressionのweights と、spark.mlのLogisticRegression
mllib.optimization.LBFGSのsetMaxNumIterations (DeveloperApiとして印が付けられました)
mllib.rdd.RDDFunctions のtreeReduce とtreeAggregate (これらの関数は直接 RDD上で利用可能で、DeveloperApiとして印が付けられました)
mllib.tree.configuration.StrategyのdefaultStrategy
mllib.tree.Nodeのbuild
多クラスのためのlibsvmローダーと、mllib.util.MLUtilsの load/save labeledDataメソッド

破壊的な変更の完全なリストはSPARK-14810で見つけることができます。

非推奨と挙動の変更

非推奨

spark.mllib と spark.ml パッケージ内の非推奨は以下を含みます:

SPARK-14984: spark.ml.regression.LinearRegressionSummaryでは、model フィールドが非推奨になりました。
SPARK-13784: spark.ml.regression.RandomForestRegressionModel と spark.ml.classification.RandomForestClassificationModelでは、getNumTreesが支持されて numTrees パラメータが非推奨になりました。
SPARK-13761: spark.ml.param.Paramsでは、validateParams が非推奨になりました。全ての上書きメソッドの機能を対応するtransformSchemaに移動します。
SPARK-14829: spark.mllib パッケージの、LinearRegressionWithSGD, LassoWithSGD, RidgeRegressionWithSGD と LogisticRegressionWithSGD が非推奨になりました。spark.ml.regression.LinearRegression と spark.ml.classification.LogisticRegressionを使用することをお勧めします。
SPARK-14900: spark.mllib.evaluation.MulticlassMetricsのパラメータprecision, recall と fMeasure では、accuracyが支持されて非推奨になりました。
SPARK-15644: spark.ml.util.MLReader と spark.ml.util.MLWriterでは、sessionが支持されてcontext が非推奨になりました。
spark.ml.feature.ChiSqSelectorModelでは、setLabelCol メソッドがChiSqSelectorModelで使用されないために非推奨になりました。

挙動の変更

spark.mllib と spark.ml パッケージ内の挙動の変更は以下を含みます:

SPARK-7780: 今は、spark.mllib.classification.LogisticRegressionWithLBFGS は二値分類のために直接 spark.ml.classification.LogisticRegression を呼びます。これはspark.mllib.classification.LogisticRegressionWithLBFGSについて以下の挙動の変更を引き起こすでしょう:
- L1/L2アップデータを使う二値分類モデルの訓練時にinterceptは正規化されないでしょう。
- 正規化無しにユーザが設定すると、特徴のスケーリングの有りあるいは無しの訓練は、同じ収束レートで同じ解を返すでしょう。
SPARK-13429: spark.ml.classification.LogisticRegressionを使ってより良く矛盾の無い結果を提供するために、spark.mllib.classification.LogisticRegressionWithLBFGS: convergenceTol のデフォルト値が 1E-4 から 1E-6 に変更されました。
SPARK-12363: 結果に変更を与えるかも知れない PowerIterationClusteringのバグを修正。
SPARK-13048: チェックポイントが使われている場合は、EMオプティマイザを使ったLDAはデフォルトで最後のチェックポイントを維持するでしょう。
SPARK-12153: Word2Vecは、今では文の境界を考慮します。以前は、それらを正しく処理しませんでした。
SPARK-10574: spark.ml と spark.mllibの両方で、HashingTF は MurmurHash3 をデフォルトのハッシュアルゴリズムとして使用します。
SPARK-14768: PySpark Param のためのexpectedType 引数が削除されました。
SPARK-14931: ScalaとPythonのパイプラインで一致していなかった幾つかのデフォルトのParam 値が変更されました。
SPARK-13600: QuantileDiscretizer は分割を見つけるためにspark.sql.DataFrameStatFunctions.approxQuantile を今では使用します(以前は独自の標本化ロジックを使っていました)。同じ入力とパラメータに関して、出力のバケットは異なるでしょう。

MLlib 1.5 から 1.6 へのアップグレード

spark.mllib あるいは spark.mlパッケージの中で、APIの破壊的な変更はありませんが、非推奨と挙動の変更があります。

非推奨:

SPARK-11358: spark.mllib.clustering.KMeansの中で、runs ペラメータは非推奨になりました。
SPARK-10592: spark.ml.classification.LogisticRegressionModel とspark.ml.regression.LinearRegressionModelの中で、weights フィールドは新しい名前coefficientsが支持されて非推奨になりました。これは、インスタンス(行) のweights"のアルゴリズムに対する曖昧さを無くすのに役立ちます。

挙動の変更:

SPARK-7770: spark.mllib.tree.GradientBoostedTrees: validationTol は1.6で意味が変わりました。以前は、それは誤差の絶対変位でした。今では、それは GradientDescentのconvergenceTolに似ています: 大きな誤差については、相対誤差(以前の誤差の相対); 小さな誤差については (< 0.01)、絶対誤差を使います。
SPARK-11069: spark.ml.feature.RegexTokenizer: 以前は、トークンに分割する前に文字列を小文字に変換しませんでした。今では、デフォルトで小文字に変換します。しない選択もあります。これはより単純な Tokenizer 変換器に一致します。

MLlib 1.4 から 1.5 へのアップグレード

spark.mllib パッケージの中では、幾つかの挙動の変更がありますが、APIを損なう変更はありません。

SPARK-9005: RegressionMetrics.explainedVariance は二乗の平均回帰合計を返します。
SPARK-8600: NaiveBayesModel.labels ソートされるようになりました。
SPARK-3382: GradientDescent は 1e-3の集約の許容範囲を持ち、従って繰り返しは1.4よりも速く終わるでしょう。

spark.ml パッケージの中では、一つの破壊的なAPIの変更と、一つの挙動の変更があります:

SPARK-9268: Java の varargsサポートは Scala compiler bugによりParams.setDefaultから削除されます。
SPARK-10097: Evaluator.isLargerBetter が測定の順番を示すために追加されます。RMSEのような測定は1.4でのように符号をフリップしません。

MLlib 1.3 から 1.4 へのアップグレード

spark.mllibパッケージの中では、幾つかの非互換の変更がありますが、全ては開発中のAPI あるいは 実験的な API です。

勾配ブースト木
- (非互換の変更) Loss.gradient メソッドの定義が変更されました。これはGBTのために独自のlossを書いたユーザのみに問題があります。
- (非互換の変更) ケースクラス項目の修正のために、ケースクラス BoostingStrategy のためのapply および copy メソッドが変更されました。 class fields. これはGBTパラメータを設定するために BoostingStrategyを使用するユーザのみに問題があります。
(非互換の変更) LDA.runの返り値が変更されました。今は、具象クラスDistributedLDAModel の代わりに、抽象クラス LDAModel が返されます。オブジェクトタイプLDAModel はまだ適切な具象タイプにキャストされます。これは最適化アルゴリズムに依存します。

spark.ml パッケージの中では、幾つかの主要なAPIの変更がありました。以下を含みます:

Param とパラメータを指定するための他のAPI
uid パイプラインコンポーネントのためのユニークなID
特定のクラスの再編成

spark.ml API はSPark1.3でアルファコンポーネントだったため、ここでは全ての変更をリスト化しません。しかし、1.4からのspark.mlはもうアルファコンポーネントではないため、将来のリリースのためのAPIの変更の詳細を提供するつもりです。

MLlib 1.2 から 1.3 へのアップグレード

spark.mllibパッケージの中で、幾つかの破壊的な変更がありました。最初の変更(ALS) はアルファあるいは実験的として印を付けてられなかったコンポーネントの中で唯一のものです。

(破壊的な変更) ALSの中で、異質なメソッドsolveLeastSquares が削除されました。DeveloperApi メソッド analyzeBlocks も削除されました。
(破壊的な変更) StandardScalerModel はアルファコンポーネントのままです。その中で、variance メソッドが std メソッドと置き換えられました。元のvarianceメソッドによって返されるカラムの分散を計算するためには、単純にstdによって返される偏差を平方します。
(破壊的な変更) StreamingLinearRegressionWithSGD は実験的なコンポーネントのままです。その中で、2つの変更がありました:
- デフォルトのコンストラクタにパラメータのsetterメソッドを使うビルダーパターンが指示されて、引数を取るコンストラクタが削除されました。
- 変数modelはもうpublicではありません。
(破壊的な変更) DecisionTree は実験的なコンポーネントのままです。その中とそれに関連するクラスで、幾つかの変更がありました:
- DecisionTreeの中で、非推奨のクラスメソッドtrain が削除されました。(object/static train メソッドは残っています。)
- Strategyの中で、checkpointDirパラメータが削除されました。Checkpointingはまだサポートされていますが、ツリーおよびツリーのアンサンブル訓練の前に checkpoint ディレクトリが設定されなければなりません。
PythonMLlibAPI (MLLib のための Scala/Java と Python 間のインタフェース) はpublic API でしたが、今ではprivateです。これは外部利用のためのものではありませんでした。
線形回帰(ラッソとリッジ回帰を含む)で、今は二乗損失は2で割り算されます。つまり、1.2と同じ結果を生成するためには、正規化パラメータは2で割られ、ステップサイズは2倍される必要があります。

spark.ml パッケージで、Spark SQLの主要なAPIの変更があります。最も重要な変更を以下にリスト化します:

古いSchemaRDD は幾分修正されたAPIのDataFrame に置き換えられました。SchemaRDDを使っていたspark.ml内の全てのアルゴリズムは、今ではデータフレームを使います。
Spark 1.2で、sqlContextがSQLContextのインスタンスであるimport sqlContext._を呼び出すことで .LabeledPointのRDDから SchemaRDDへの暗黙の変換を使用していました。これらの暗黙の変換は削除され、今ではimport sqlContext.implicits._を呼びます。
SQLのためのJava APIもそれに従って変更されました。詳細については、上の例と Spark SQL プログラミングガイドを見てください。

他の変更はLogisticRegressionです:

scoreCol 出力カラム(デフォルトは"score")はprobabilityCol (デフォルトは"probability")に名前が変わりました。もともとは種類が Double (クラス 1.0の確率のため)でしたが、今はVector (将来的に各クラスの確率が多クラス分類をサポートするため)です。
Spark 1.2 では、LogisticRegressionModel はインターセプトを含みませんでした。Spark 1.3では、インターセプトを含みます; しかし、spark.mllib.LogisticRegressionWithLBFGSのためのデフォルトの設定を使うため、常に0.0でしょう。将来的にはインターセプトを使うためのオプションが追加されるでしょう。

MLlib 1.1 から 1.2 へのアップグレード

MLlib v1.2での唯一のAPIの変更は DecisionTreeで、これはMLlib 1.2の実験的なAPIのままです。

(破壊的な変更) 分類のためのScala APIはクラスの数を指定する名前付きの引数を取ります。MLlib v1.1 では、この引数はPythonではnumClassesと呼ばれ、ScalaではnumClassesForClassification と呼ばれます。MLlib v1.2では、両方の名前がnumClassesに設定されます。この numClasses パラメータは Strategy、あるいは DecisionTree static trainClassifier とtrainRegressorメソッドを使って指定されます。
(破壊的な変更) NodeのためのAPIが変更されました。(trainClassifier あるいは trainRegressor メソッドを使う代わりに)ユーザが手動で決定木を構築していない場合は、これは一般的にユーザコードには影響しません。ツリーのNodeは、予想されたラベルの確率(分類のため)を含むより多くの情報を、今は含んでいます。
Printing メソッドの出力が代わりました。toString (Scala/Java) と__repr__ (Python) メソッドが完全なモデルを出力するために使われていました; 今では概要を出力します。完全なモデルについては、toDebugStringを使ってください。

Spark配布物の中の例と、決定木のガイドの中の例が、それに応じて更新されました。

MLlib 1.0 から 1.1 へのアップグレード

MLlib v1.1での唯一のAPIの変更は DecisionTreeで、これはMLlib 1.1の実験的なAPIのままです。

(破壊的な変更) scikit-learn とrpartの中での木の実装と合わせるために、木の深さの意味が1つだけ変更されました。MLlib v1.0では、深さ1の木は1つの葉を持ち、深さ2の木は1つのrootノードと2つの葉ノードを持っていました。MLlib v1.1では、a 深さ0の木は1つの葉を持ち、深さ1の木は1つのノードと2つの葉ノードを持ちます。この深さはStrategyでのmaxDepth パラメータ、あるいは DecisionTree static trainClassifier と trainRegressor メソッドによって指定されます。
(破壊的な変更) DecisionTreeを構築するためには、古いパラメータクラスStrategyの使用ではなく、新しく追加されたtrainClassifier とtrainRegressor メソッドを使うことをお勧めします。これらの新しい訓練メソッドは明示的に分類と回帰を分割し、それらは特別なパラメータタイプを単純なStringタイプに置き換えます。

お勧めのtrainClassifier と trainRegressor の新しい例は、決定木ガイドの中で与えられます。

MLlib 0.9 から 1.0 へのアップグレード

MLlib v1.0では、統一された方法でdenseとsparseの両方をサポートします。これは新しい破壊的な変更を導入します。もしデータがsparseであれば、ストレージおよび計算の両方でのまばらさを利用するために、denseの代わりにsparse形式でそれを格納してください。詳細は以下で説明されます。

移行ガイド

移設ガイド: MLlib (機械学習)

MLlib 2.4 から 3.0 へのアップグレード

破壊的な変更

非推奨と挙動の変更

MLlib 2.2 から 2.3 へのアップグレード

破壊的な変更

非推奨と挙動の変更

MLlib 2.1 から 2.2 へのアップグレード

破壊的な変更

非推奨と挙動の変更

MLlib 2.0 から 2.1 へのアップグレード

破壊的な変更

非推奨と挙動の変更

MLlib 1.6 から 2.0 へのアップグレード

破壊的な変更

非推奨と挙動の変更

MLlib 1.5 から 1.6 へのアップグレード

MLlib 1.4 から 1.5 へのアップグレード

MLlib 1.3 から 1.4 へのアップグレード

MLlib 1.2 から 1.3 へのアップグレード

MLlib 1.1 から 1.2 へのアップグレード

MLlib 1.0 から 1.1 へのアップグレード

MLlib 0.9 から 1.0 へのアップグレード