評価マトリックス - RDDベースのAPI

分類モデルの評価
回帰モデルの評価

spark.mllibのMLlibにはデータから学習および予測を行うことができる多数の機械学習アルゴリズムが同梱されています。これらのアルゴリズムが機械学習モデルを構築するために適用された場合、なんらかの条件でモデルのパフォーマンスを評価する必要があり、それはアプリケーションとその要求に依存します。spark.mllibのMLlibは機械学習モデルのパフォーマンスを評価する目的のための一組のマトリックスも提供します。

特定の機械学習アルゴリズムは、分類、回帰、クラスタリングなどのような機械学習アプリケーションの広い型に分類されます。これらのそれぞれの型はパフォーマンスの評価のためによく確率された測定基準を持ち、spark.mllibで現在利用可能なそれらの測定基準はこの章で詳しく述べられます。

分類モデルの評価

分類のアルゴリズムには多くの異なる種類がありますが、全ての分類モデルの評価は良く似た原則を共有します。管理された分類の問題における、真の出力と各データポイントのためにモデルが生成した予想の出力。この理由で、各データポイントの結果は4つの分類のうちの一つに割り当てることができます:

True Positive (TP) - ラベルが陽性で、予想も陽性。
True Negative (TN) - ラベルが陰性で、予想も陰性。
False Positive (FP) - ラベルが陰性だが、予想が陽性。
False Negative (FN) - ラベルが陽性だが、予想が陰性。

これらの4つの数はほとんどの分類木の評価マトリックスのためのブロックを構築します。分類の評価を考える際の基礎となる点は、純粋な精度(つまり、予想が正解あるいは間違い)は一般的に良い指標では無いということです。この理由はデータセットはひどく平衡していないかも知れないからです。例えば、データポイントの95%が詐欺ではなく、データポイントの5%が 詐欺であるデータセットからモデルが詐欺を予想するように設計されている場合、経験が少ない分類器は95%の精度で入力に関係なく 詐欺ではないと予測するでしょう。このため、適合率と再現率のようなマトリックスがエラーの種類を考慮するために、一般的に使われます。ほとんどのアプリケーションにおいて、適合率と再現率がある程度平衡します。そのことはそれら2つをF-measureと呼ばれる一つのマトリックスに結合することで捉えることができます。

二値分類

二値分類器は指定されたデータセットを2つあるうちの1つの可能なグループ(例えば、詐欺であるか、そうで無いか)に要素を分割するために使われ、他クラス分類の特別な場合です。ほとんどの二値分類マトリックスは多クラス分類マトリックスに一般化することができます。

閾値の調整

多くの分類モデルが各クラスについて実際に"score"(しばしば確率と言われる)を出力することを理解することが重要です。スコアが高いことは可能性が高いことを示唆します。二値の場合、モデルは各クラスごとに確率を出力するかも知れません: $P(Y=1|X)$ and $P(Y=0|X)$. 単純に高い確率を取るだけでは無く、確率がとても高い場合にクラスを予想するようにモデルが調整される必要があるかも知れない場合があります(たとえば、モデルが90%より高い確率で詐欺だと予想する場合のみ、クレジットカードのトランザクションをブロックする)。従って、モデルが出力する確率に基づくだろう予想されたクラスを決定する閾値があります。

予想の閾値の調整はモデルの適合率と再現率を変更するので、モデルの最適化の重要な部分です。閾値の関数としてどれくらい適合率、再現率、および他の基準が変わったかを可視化するために、お互いに閾値でパラメータ化された計算の基準を描画するために一般的な練習です。P-R 曲線は異なる閾値の値についての (適合、再現)点を描画し、一方で受信者操作特性あるいは ROC曲線は (再現、false positive レート) 点を描画します。

利用可能なマトリックス

マトリックス	定義
適合率 (Postive Predictive Value)	$PPV=\frac{TP}{TP + FP}$
再現率 (True Positive Rate)	$TPR=\frac{TP}{P}=\frac{TP}{TP + FN}$
F-measure	$F(\beta) = \left(1 + \beta^2\right) \cdot \left(\frac{PPV \cdot TPR} {\beta^2 \cdot PPV + TPR}\right)$
受信者操作特性 (ROC)	$FPR(T)=\int^\infty_{T} P_0(T)\,dT \\ TPR(T)=\int^\infty_{T} P_1(T)\,dT$
ROC曲線下の領域	$AUROC=\int^1_{0} \frac{TP}{P} d\left(\frac{FP}{N}\right)$
適合率-再現率曲線下の領域	$AUPRC=\int^1_{0} \frac{TP}{TP+FP} d\left(\frac{TP}{P}\right)$

例

以下のコードの断片は標本データセットをどうやってロードするかを説明し、データ上の二値分類アルゴリズムを訓練し、幾つかの二値分類評価マトリックスによってアルゴリズムのパフォーマンスを評価します。

APIの詳細はLogisticRegressionWithLBFGS Scala ドキュメントおよび BinaryClassificationMetrics Scala ドキュメントを参照してください。

import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS
import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.util.MLUtils

// Load training data in LIBSVM format
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_binary_classification_data.txt")

// Split data into training (60%) and test (40%)
val Array(training, test) = data.randomSplit(Array(0.6, 0.4), seed = 11L)
training.cache()

// Run training algorithm to build the model
val model = new LogisticRegressionWithLBFGS()
  .setNumClasses(2)
  .run(training)

// Clear the prediction threshold so the model will return probabilities
model.clearThreshold

// Compute raw scores on the test set
val predictionAndLabels = test.map { case LabeledPoint(label, features) =>
  val prediction = model.predict(features)
  (prediction, label)
}

// Instantiate metrics object
val metrics = new BinaryClassificationMetrics(predictionAndLabels)

// Precision by threshold
val precision = metrics.precisionByThreshold
precision.foreach { case (t, p) =>
  println(s"Threshold: $t, Precision: $p")
}

// Recall by threshold
val recall = metrics.recallByThreshold
recall.foreach { case (t, r) =>
  println(s"Threshold: $t, Recall: $r")
}

// Precision-Recall Curve
val PRC = metrics.pr

// F-measure
val f1Score = metrics.fMeasureByThreshold
f1Score.foreach { case (t, f) =>
  println(s"Threshold: $t, F-score: $f, Beta = 1")
}

val beta = 0.5
val fScore = metrics.fMeasureByThreshold(beta)
f1Score.foreach { case (t, f) =>
  println(s"Threshold: $t, F-score: $f, Beta = 0.5")
}

// AUPRC
val auPRC = metrics.areaUnderPR
println("Area under precision-recall curve = " + auPRC)

// Compute thresholds used in ROC and PR curves
val thresholds = precision.map(_._1)

// ROC Curve
val roc = metrics.roc

// AUROC
val auROC = metrics.areaUnderROC
println("Area under ROC = " + auROC)

例の完全なコードは Spark のリポジトリの "examples/src/main/scala/org/apache/spark/examples/mllib/BinaryClassificationMetricsExample.scala" で見つかります。

APIの詳細はLogisticRegressionModel Java ドキュメントおよび LogisticRegressionWithLBFGS Java ドキュメントを参照してください。

import scala.Tuple2;

import org.apache.spark.api.java.*;
import org.apache.spark.mllib.classification.LogisticRegressionModel;
import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS;
import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics;
import org.apache.spark.mllib.regression.LabeledPoint;
import org.apache.spark.mllib.util.MLUtils;

String path = "data/mllib/sample_binary_classification_data.txt";
JavaRDD<LabeledPoint> data = MLUtils.loadLibSVMFile(sc, path).toJavaRDD();

// Split initial RDD into two... [60% training data, 40% testing data].
JavaRDD<LabeledPoint>[] splits =
  data.randomSplit(new double[]{0.6, 0.4}, 11L);
JavaRDD<LabeledPoint> training = splits[0].cache();
JavaRDD<LabeledPoint> test = splits[1];

// Run training algorithm to build the model.
LogisticRegressionModel model = new LogisticRegressionWithLBFGS()
  .setNumClasses(2)
  .run(training.rdd());

// Clear the prediction threshold so the model will return probabilities
model.clearThreshold();

// Compute raw scores on the test set.
JavaPairRDD<Object, Object> predictionAndLabels = test.mapToPair(p ->
  new Tuple2<>(model.predict(p.features()), p.label()));

// Get evaluation metrics.
BinaryClassificationMetrics metrics =
  new BinaryClassificationMetrics(predictionAndLabels.rdd());

// Precision by threshold
JavaRDD<Tuple2<Object, Object>> precision = metrics.precisionByThreshold().toJavaRDD();
System.out.println("Precision by threshold: " + precision.collect());

// Recall by threshold
JavaRDD recall = metrics.recallByThreshold().toJavaRDD();
System.out.println("Recall by threshold: " + recall.collect());

// F Score by threshold
JavaRDD f1Score = metrics.fMeasureByThreshold().toJavaRDD();
System.out.println("F1 Score by threshold: " + f1Score.collect());

JavaRDD f2Score = metrics.fMeasureByThreshold(2.0).toJavaRDD();
System.out.println("F2 Score by threshold: " + f2Score.collect());

// Precision-recall curve
JavaRDD prc = metrics.pr().toJavaRDD();
System.out.println("Precision-recall curve: " + prc.collect());

// Thresholds
JavaRDD<Double> thresholds = precision.map(t -> Double.parseDouble(t._1().toString()));

// ROC Curve
JavaRDD roc = metrics.roc().toJavaRDD();
System.out.println("ROC curve: " + roc.collect());

// AUPRC
System.out.println("Area under precision-recall curve = " + metrics.areaUnderPR());

// AUROC
System.out.println("Area under ROC = " + metrics.areaUnderROC());

// Save and load model
model.save(sc, "target/tmp/LogisticRegressionModel");
LogisticRegressionModel.load(sc, "target/tmp/LogisticRegressionModel");

例の完全なコードは Spark のリポジトリの "examples/src/main/java/org/apache/spark/examples/mllib/JavaBinaryClassificationMetricsExample.java" で見つかります。

APIについての詳細はBinaryClassificationMetrics Python ドキュメントおよびLogisticRegressionWithLBFGS Python ドキュメントを参照してください。

from pyspark.mllib.classification import LogisticRegressionWithLBFGS
from pyspark.mllib.evaluation import BinaryClassificationMetrics
from pyspark.mllib.util import MLUtils

# Several of the methods available in scala are currently missing from pyspark
# Load training data in LIBSVM format
data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_binary_classification_data.txt")

# Split data into training (60%) and test (40%)
training, test = data.randomSplit([0.6, 0.4], seed=11)
training.cache()

# Run training algorithm to build the model
model = LogisticRegressionWithLBFGS.train(training)

# Compute raw scores on the test set
predictionAndLabels = test.map(lambda lp: (float(model.predict(lp.features)), lp.label))

# Instantiate metrics object
metrics = BinaryClassificationMetrics(predictionAndLabels)

# Area under precision-recall curve
print("Area under PR = %s" % metrics.areaUnderPR)

# Area under ROC curve
print("Area under ROC = %s" % metrics.areaUnderROC)

例の完全なコードは Spark のリポジトリの "examples/src/main/python/mllib/binary_classification_metrics_example.py" で見つかります。

多クラス分類

多クラス分類は、各データポイントについて $M \gt 2$ の可能性のあるラベルがある場合の分類問題を説明します。($M=2$ の場合は二値分類問題です)。例えば、手で書いた標本を0から9の数字に分類し、10個の可能なクラスを持ちます。

多クラスマトリックスについては、陽性および陰性の記法がわずかに異なります。予想とラベルはまだ陽性あるいは陰性ですが、それらは特定のクラスの状況下で考慮されなければなりません。各ラベルと予想は多数のクラスのうちの一つの値を取り、特定のクラスについて正で他の全てのクラスについて負とされます。つまり、true positiveは予想とラベルが一致した場合ですが、true negativeは予想あるいはラベルのどちらも指定されたクラスの値を取らない場合に起こります。この約束事により、指定されたデータ標本について多数のtrue negativeがありえます。positive および negative ラベルの以前の定義から false negative および false positive の拡張は簡単です。

ラベルに基づいたマトリックス

2つの可能性のあるラベルしか無い二値分類に対して、多クラス分類問題は多くの可能性のあるラベルを持つため、ラベルに基づいた基準が導入されます。全てのラベルについての適合率の測定精度 - クラスが正しく(true positive) 予想された回数をデータポイントの数で正規化。ラベルによる適合率は1つのクラスのみ考慮し、出力に現れるラベルの回数で正規化された特定のラベルが正しく予想された回数を測定します。

利用可能なマトリックス

クラス、あるいはラベルを以下のように定義します。

$L = \{\ell_0, \ell_1, \ldots, \ell_{M-1} \}$

真の出力ベクトル $\mathbf{y}$ は要素 $N$ からなります。

$\mathbf{y}_0, \mathbf{y}_1, \ldots, \mathbf{y}_{N-1} \in L$

多クラス予想アルゴリズムは $N$ 要素の予想ベクトル $\hat{\mathbf{y}}$ を生成します。

$\hat{\mathbf{y}}_0, \hat{\mathbf{y}}_1, \ldots, \hat{\mathbf{y}}_{N-1} \in L$

この章では、修正されたデルタ関数 $\hat{\delta}(x)$ は有用であると証明されるでしょう。

$\hat{\delta}(x) = \begin{cases}1 & \text{if $x = 0$}, \\ 0 & \text{otherwise}.\end{cases}$

マトリックス	定義
混同行列	$C_{ij} = \sum_{k=0}^{N-1} \hat{\delta}(\mathbf{y}_k-\ell_i) \cdot \hat{\delta}(\hat{\mathbf{y}}_k - \ell_j)\\ \\ \left( \begin{array}{ccc} \sum_{k=0}^{N-1} \hat{\delta}(\mathbf{y}_k-\ell_1) \cdot \hat{\delta}(\hat{\mathbf{y}}_k - \ell_1) & \ldots & \sum_{k=0}^{N-1} \hat{\delta}(\mathbf{y}_k-\ell_1) \cdot \hat{\delta}(\hat{\mathbf{y}}_k - \ell_N) \\ \vdots & \ddots & \vdots \\ \sum_{k=0}^{N-1} \hat{\delta}(\mathbf{y}_k-\ell_N) \cdot \hat{\delta}(\hat{\mathbf{y}}_k - \ell_1) & \ldots & \sum_{k=0}^{N-1} \hat{\delta}(\mathbf{y}_k-\ell_N) \cdot \hat{\delta}(\hat{\mathbf{y}}_k - \ell_N) \end{array} \right)$
精度	$ACC = \frac{TP}{TP + FP} = \frac{1}{N}\sum_{i=0}^{N-1} \hat{\delta}\left(\hat{\mathbf{y}}_i - \mathbf{y}_i\right)$
ラベルによる精度	$PPV(\ell) = \frac{TP}{TP + FP} = \frac{\sum_{i=0}^{N-1} \hat{\delta}(\hat{\mathbf{y}}_i - \ell) \cdot \hat{\delta}(\mathbf{y}_i - \ell)} {\sum_{i=0}^{N-1} \hat{\delta}(\hat{\mathbf{y}}_i - \ell)}$
ラベルによる再現率	$TPR(\ell)=\frac{TP}{P} = \frac{\sum_{i=0}^{N-1} \hat{\delta}(\hat{\mathbf{y}}_i - \ell) \cdot \hat{\delta}(\mathbf{y}_i - \ell)} {\sum_{i=0}^{N-1} \hat{\delta}(\mathbf{y}_i - \ell)}$
ラベルによる F-measure	$F(\beta, \ell) = \left(1 + \beta^2\right) \cdot \left(\frac{PPV(\ell) \cdot TPR(\ell)} {\beta^2 \cdot PPV(\ell) + TPR(\ell)}\right)$
重み付け精度	$PPV_{w}= \frac{1}{N} \sum\nolimits_{\ell \in L} PPV(\ell) \cdot \sum_{i=0}^{N-1} \hat{\delta}(\mathbf{y}_i-\ell)$
重み付け再現率	$TPR_{w}= \frac{1}{N} \sum\nolimits_{\ell \in L} TPR(\ell) \cdot \sum_{i=0}^{N-1} \hat{\delta}(\mathbf{y}_i-\ell)$
重み付け F-measure	$F_{w}(\beta)= \frac{1}{N} \sum\nolimits_{\ell \in L} F(\beta, \ell) \cdot \sum_{i=0}^{N-1} \hat{\delta}(\mathbf{y}_i-\ell)$

例

以下のコードの断片は標本データセットをどうやってロードするかを説明し、データ上の多クラス分類アルゴリズムを訓練し、幾つかの多クラス分類評価マトリックスによってアルゴリズムのパフォーマンスを評価します。

APIの詳細はMulticulassMetrics Scala ドキュメントを参照してください。

import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS
import org.apache.spark.mllib.evaluation.MulticlassMetrics
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.util.MLUtils

// Load training data in LIBSVM format
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_multiclass_classification_data.txt")

// Split data into training (60%) and test (40%)
val Array(training, test) = data.randomSplit(Array(0.6, 0.4), seed = 11L)
training.cache()

// Run training algorithm to build the model
val model = new LogisticRegressionWithLBFGS()
  .setNumClasses(3)
  .run(training)

// Compute raw scores on the test set
val predictionAndLabels = test.map { case LabeledPoint(label, features) =>
  val prediction = model.predict(features)
  (prediction, label)
}

// Instantiate metrics object
val metrics = new MulticlassMetrics(predictionAndLabels)

// Confusion matrix
println("Confusion matrix:")
println(metrics.confusionMatrix)

// Overall Statistics
val accuracy = metrics.accuracy
println("Summary Statistics")
println(s"Accuracy = $accuracy")

// Precision by label
val labels = metrics.labels
labels.foreach { l =>
  println(s"Precision($l) = " + metrics.precision(l))
}

// Recall by label
labels.foreach { l =>
  println(s"Recall($l) = " + metrics.recall(l))
}

// False positive rate by label
labels.foreach { l =>
  println(s"FPR($l) = " + metrics.falsePositiveRate(l))
}

// F-measure by label
labels.foreach { l =>
  println(s"F1-Score($l) = " + metrics.fMeasure(l))
}

// Weighted stats
println(s"Weighted precision: ${metrics.weightedPrecision}")
println(s"Weighted recall: ${metrics.weightedRecall}")
println(s"Weighted F1 score: ${metrics.weightedFMeasure}")
println(s"Weighted false positive rate: ${metrics.weightedFalsePositiveRate}")

例の完全なコードは Spark のリポジトリの "examples/src/main/scala/org/apache/spark/examples/mllib/MulticlassMetricsExample.scala" で見つかります。

APIの詳細はMulticlassMetrics Java ドキュメントを参照してください。

import scala.Tuple2;

import org.apache.spark.api.java.*;
import org.apache.spark.mllib.classification.LogisticRegressionModel;
import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS;
import org.apache.spark.mllib.evaluation.MulticlassMetrics;
import org.apache.spark.mllib.regression.LabeledPoint;
import org.apache.spark.mllib.util.MLUtils;
import org.apache.spark.mllib.linalg.Matrix;

String path = "data/mllib/sample_multiclass_classification_data.txt";
JavaRDD<LabeledPoint> data = MLUtils.loadLibSVMFile(sc, path).toJavaRDD();

// Split initial RDD into two... [60% training data, 40% testing data].
JavaRDD<LabeledPoint>[] splits = data.randomSplit(new double[]{0.6, 0.4}, 11L);
JavaRDD<LabeledPoint> training = splits[0].cache();
JavaRDD<LabeledPoint> test = splits[1];

// Run training algorithm to build the model.
LogisticRegressionModel model = new LogisticRegressionWithLBFGS()
  .setNumClasses(3)
  .run(training.rdd());

// Compute raw scores on the test set.
JavaPairRDD<Object, Object> predictionAndLabels = test.mapToPair(p ->
  new Tuple2<>(model.predict(p.features()), p.label()));

// Get evaluation metrics.
MulticlassMetrics metrics = new MulticlassMetrics(predictionAndLabels.rdd());

// Confusion matrix
Matrix confusion = metrics.confusionMatrix();
System.out.println("Confusion matrix: \n" + confusion);

// Overall statistics
System.out.println("Accuracy = " + metrics.accuracy());

// Stats by labels
for (int i = 0; i < metrics.labels().length; i++) {
  System.out.format("Class %f precision = %f\n", metrics.labels()[i],metrics.precision(
    metrics.labels()[i]));
  System.out.format("Class %f recall = %f\n", metrics.labels()[i], metrics.recall(
    metrics.labels()[i]));
  System.out.format("Class %f F1 score = %f\n", metrics.labels()[i], metrics.fMeasure(
    metrics.labels()[i]));
}

//Weighted stats
System.out.format("Weighted precision = %f\n", metrics.weightedPrecision());
System.out.format("Weighted recall = %f\n", metrics.weightedRecall());
System.out.format("Weighted F1 score = %f\n", metrics.weightedFMeasure());
System.out.format("Weighted false positive rate = %f\n", metrics.weightedFalsePositiveRate());

// Save and load model
model.save(sc, "target/tmp/LogisticRegressionModel");
LogisticRegressionModel sameModel = LogisticRegressionModel.load(sc,
  "target/tmp/LogisticRegressionModel");

例の完全なコードは Spark のリポジトリの "examples/src/main/java/org/apache/spark/examples/mllib/JavaMulticlassClassificationMetricsExample.java" i で見つかります。

APIの詳細はMulticlassMetrics Python ドキュメントを参照してください。

from pyspark.mllib.classification import LogisticRegressionWithLBFGS
from pyspark.mllib.util import MLUtils
from pyspark.mllib.evaluation import MulticlassMetrics

# Load training data in LIBSVM format
data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_multiclass_classification_data.txt")

# Split data into training (60%) and test (40%)
training, test = data.randomSplit([0.6, 0.4], seed=11)
training.cache()

# Run training algorithm to build the model
model = LogisticRegressionWithLBFGS.train(training, numClasses=3)

# Compute raw scores on the test set
predictionAndLabels = test.map(lambda lp: (float(model.predict(lp.features)), lp.label))

# Instantiate metrics object
metrics = MulticlassMetrics(predictionAndLabels)

# Overall statistics
precision = metrics.precision()
recall = metrics.recall()
f1Score = metrics.fMeasure()
print("Summary Stats")
print("Precision = %s" % precision)
print("Recall = %s" % recall)
print("F1 Score = %s" % f1Score)

# Statistics by class
labels = data.map(lambda lp: lp.label).distinct().collect()
for label in sorted(labels):
    print("Class %s precision = %s" % (label, metrics.precision(label)))
    print("Class %s recall = %s" % (label, metrics.recall(label)))
    print("Class %s F1 Measure = %s" % (label, metrics.fMeasure(label, beta=1.0)))

# Weighted stats
print("Weighted recall = %s" % metrics.weightedRecall)
print("Weighted precision = %s" % metrics.weightedPrecision)
print("Weighted F(1) Score = %s" % metrics.weightedFMeasure())
print("Weighted F(0.5) Score = %s" % metrics.weightedFMeasure(beta=0.5))
print("Weighted false positive rate = %s" % metrics.weightedFalsePositiveRate)

例の完全なコードは Spark のリポジトリの "examples/src/main/python/mllib/multi_class_metrics_example.py" で見つかります。

多ラベル分類

多ラベル分類問題はデータセット中の各標本をクラスラベルのセットへマップすることに関連します。この種類の分類問題では、ラベルはお互いに排他的ではありません。例えば、ニュース文章のセットをトピックスに分類する場合、一つの文章は科学と政治の両方かも知れません。

ラベルはお互いに排他的では無いため、予想とtrueラベルは今はラベルのベクトルではなく、ラベルsetsのベクトルです。多ラベルマトリックスは従ってセット上の操作へ予想、再現などの基本的な考えを拡張します。例えば、あるデータポイントに関して、予想されたセットの中にクラスがあり、それがtrueラベルセットの中にある場合、指定されたクラスについてtrue positiveが起こります。

利用可能なマトリックス

ここで $N$ドキュメントのセット $D$ を定義します。

$D = \left\{d_0, d_1, ..., d_{N-1}\right\}$

$L_0, L_1, …, L_{N-1}$ をラベルのセットのファミリーとし、$P_0, P_1, …, P_{N-1}$ を予想のセットのファミリーとします。ここで$L_i$ と $P_i$ はラベルセットと予想セットであり、それぞれドキュメント $d_i$ に対応します。

全てのユニークなラベルのセットは以下で与えられます

$L = \bigcup_{k=0}^{N-1} L_k$

セット $A$上の指標関数 $I_A(x)$ の以下の定義が必要でしょう

$I_A(x) = \begin{cases}1 & \text{if $x \in A$}, \\ 0 & \text{otherwise}.\end{cases}$

マトリックス	定義
精度	$\frac{1}{N} \sum_{i=0}^{N-1} \frac{\left\|P_i \cap L_i\right\|}{\left\|P_i\right\|}$
再現	$\frac{1}{N} \sum_{i=0}^{N-1} \frac{\left\|L_i \cap P_i\right\|}{\left\|L_i\right\|}$
精度	$\frac{1}{N} \sum_{i=0}^{N - 1} \frac{\left\|L_i \cap P_i \right\|} {\left\|L_i\right\| + \left\|P_i\right\| - \left\|L_i \cap P_i \right\|}$
ラベルによる精度	$PPV(\ell)=\frac{TP}{TP + FP}= \frac{\sum_{i=0}^{N-1} I_{P_i}(\ell) \cdot I_{L_i}(\ell)} {\sum_{i=0}^{N-1} I_{P_i}(\ell)}$
ラベルによる再現率	$TPR(\ell)=\frac{TP}{P}= \frac{\sum_{i=0}^{N-1} I_{P_i}(\ell) \cdot I_{L_i}(\ell)} {\sum_{i=0}^{N-1} I_{L_i}(\ell)}$
ラベルによる F1-measure	$F1(\ell) = 2 \cdot \left(\frac{PPV(\ell) \cdot TPR(\ell)} {PPV(\ell) + TPR(\ell)}\right)$
ハミング損失	$\frac{1}{N \cdot \left\|L\right\|} \sum_{i=0}^{N - 1} \left\|L_i\right\| + \left\|P_i\right\| - 2\left\|L_i \cap P_i\right\|$
下位集合の精度	$\frac{1}{N} \sum_{i=0}^{N-1} I_{\{L_i\}}(P_i)$
F1 指標	$\frac{1}{N} \sum_{i=0}^{N-1} 2 \frac{\left\|P_i \cap L_i\right\|}{\left\|P_i\right\| \cdot \left\|L_i\right\|}$
マイクロ精度	$\frac{TP}{TP + FP}=\frac{\sum_{i=0}^{N-1} \left\|P_i \cap L_i\right\|} {\sum_{i=0}^{N-1} \left\|P_i \cap L_i\right\| + \sum_{i=0}^{N-1} \left\|P_i - L_i\right\|}$
マイクロ再現	$\frac{TP}{TP + FN}=\frac{\sum_{i=0}^{N-1} \left\|P_i \cap L_i\right\|} {\sum_{i=0}^{N-1} \left\|P_i \cap L_i\right\| + \sum_{i=0}^{N-1} \left\|L_i - P_i\right\|}$
マイクロ F1 指標	$2 \cdot \frac{TP}{2 \cdot TP + FP + FN}=2 \cdot \frac{\sum_{i=0}^{N-1} \left\|P_i \cap L_i\right\|}{2 \cdot \sum_{i=0}^{N-1} \left\|P_i \cap L_i\right\| + \sum_{i=0}^{N-1} \left\|L_i - P_i\right\| + \sum_{i=0}^{N-1} \left\|P_i - L_i\right\|}$

例

以下のコードの断片は複数ラベルの分類器のパフォーマンスを評価する方法を説明します。例では以下に示される多ラベル分類について偽の予想とラベルデータを使用します。

文章の予想:

doc 0 - predict 0, 1 - class 0, 2
doc 1 - predict 0, 2 - class 0, 1
doc 2 - predict none - class 0
doc 3 - predict 2 - class 2
doc 4 - predict 2, 0 - class 2, 0
doc 5 - predict 0, 1, 2 - class 0, 1
doc 6 - predict 1 - class 1, 2

予想されたクラス :

class 0 - doc 0, 1, 4, 5 (total 4)
class 1 - doc 0, 5, 6 (total 3)
class 2 - doc 1, 3, 4, 5 (total 4)

trueクラス:

class 0 - doc 0, 1, 2, 4, 5 (total 5)
class 1 - doc 1, 5, 6 (total 3)
class 2 - doc 0, 3, 4, 6 (total 4)

APIの詳細はMultilabelMetrics Scala ドキュメントを参照してください。

import org.apache.spark.mllib.evaluation.MultilabelMetrics
import org.apache.spark.rdd.RDD

val scoreAndLabels: RDD[(Array[Double], Array[Double])] = sc.parallelize(
  Seq((Array(0.0, 1.0), Array(0.0, 2.0)),
    (Array(0.0, 2.0), Array(0.0, 1.0)),
    (Array.empty[Double], Array(0.0)),
    (Array(2.0), Array(2.0)),
    (Array(2.0, 0.0), Array(2.0, 0.0)),
    (Array(0.0, 1.0, 2.0), Array(0.0, 1.0)),
    (Array(1.0), Array(1.0, 2.0))), 2)

// Instantiate metrics object
val metrics = new MultilabelMetrics(scoreAndLabels)

// Summary stats
println(s"Recall = ${metrics.recall}")
println(s"Precision = ${metrics.precision}")
println(s"F1 measure = ${metrics.f1Measure}")
println(s"Accuracy = ${metrics.accuracy}")

// Individual label stats
metrics.labels.foreach(label =>
  println(s"Class $label precision = ${metrics.precision(label)}"))
metrics.labels.foreach(label => println(s"Class $label recall = ${metrics.recall(label)}"))
metrics.labels.foreach(label => println(s"Class $label F1-score = ${metrics.f1Measure(label)}"))

// Micro stats
println(s"Micro recall = ${metrics.microRecall}")
println(s"Micro precision = ${metrics.microPrecision}")
println(s"Micro F1 measure = ${metrics.microF1Measure}")

// Hamming loss
println(s"Hamming loss = ${metrics.hammingLoss}")

// Subset accuracy
println(s"Subset accuracy = ${metrics.subsetAccuracy}")

例の完全なコードは Spark のリポジトリの "examples/src/main/scala/org/apache/spark/examples/mllib/MultiLabelMetricsExample.scala" で見つかります。

APIの詳細はMultilabelMetrics Java ドキュメントを参照してください。

import java.util.Arrays;
import java.util.List;

import scala.Tuple2;

import org.apache.spark.api.java.*;
import org.apache.spark.mllib.evaluation.MultilabelMetrics;
import org.apache.spark.SparkConf;

List<Tuple2<double[], double[]>> data = Arrays.asList(
  new Tuple2<>(new double[]{0.0, 1.0}, new double[]{0.0, 2.0}),
  new Tuple2<>(new double[]{0.0, 2.0}, new double[]{0.0, 1.0}),
  new Tuple2<>(new double[]{}, new double[]{0.0}),
  new Tuple2<>(new double[]{2.0}, new double[]{2.0}),
  new Tuple2<>(new double[]{2.0, 0.0}, new double[]{2.0, 0.0}),
  new Tuple2<>(new double[]{0.0, 1.0, 2.0}, new double[]{0.0, 1.0}),
  new Tuple2<>(new double[]{1.0}, new double[]{1.0, 2.0})
);
JavaRDD<Tuple2<double[], double[]>> scoreAndLabels = sc.parallelize(data);

// Instantiate metrics object
MultilabelMetrics metrics = new MultilabelMetrics(scoreAndLabels.rdd());

// Summary stats
System.out.format("Recall = %f\n", metrics.recall());
System.out.format("Precision = %f\n", metrics.precision());
System.out.format("F1 measure = %f\n", metrics.f1Measure());
System.out.format("Accuracy = %f\n", metrics.accuracy());

// Stats by labels
for (int i = 0; i < metrics.labels().length - 1; i++) {
  System.out.format("Class %1.1f precision = %f\n", metrics.labels()[i], metrics.precision(
    metrics.labels()[i]));
  System.out.format("Class %1.1f recall = %f\n", metrics.labels()[i], metrics.recall(
    metrics.labels()[i]));
  System.out.format("Class %1.1f F1 score = %f\n", metrics.labels()[i], metrics.f1Measure(
    metrics.labels()[i]));
}

// Micro stats
System.out.format("Micro recall = %f\n", metrics.microRecall());
System.out.format("Micro precision = %f\n", metrics.microPrecision());
System.out.format("Micro F1 measure = %f\n", metrics.microF1Measure());

// Hamming loss
System.out.format("Hamming loss = %f\n", metrics.hammingLoss());

// Subset accuracy
System.out.format("Subset accuracy = %f\n", metrics.subsetAccuracy());

例の完全なコードは Spark のリポジトリの "examples/src/main/java/org/apache/spark/examples/mllib/JavaMultiLabelClassificationMetricsExample.java" で見つかります。

APIの詳細はMultilabelMetrics Python ドキュメントを参照してください。

from pyspark.mllib.evaluation import MultilabelMetrics

scoreAndLabels = sc.parallelize([
    ([0.0, 1.0], [0.0, 2.0]),
    ([0.0, 2.0], [0.0, 1.0]),
    ([], [0.0]),
    ([2.0], [2.0]),
    ([2.0, 0.0], [2.0, 0.0]),
    ([0.0, 1.0, 2.0], [0.0, 1.0]),
    ([1.0], [1.0, 2.0])])

# Instantiate metrics object
metrics = MultilabelMetrics(scoreAndLabels)

# Summary stats
print("Recall = %s" % metrics.recall())
print("Precision = %s" % metrics.precision())
print("F1 measure = %s" % metrics.f1Measure())
print("Accuracy = %s" % metrics.accuracy)

# Individual label stats
labels = scoreAndLabels.flatMap(lambda x: x[1]).distinct().collect()
for label in labels:
    print("Class %s precision = %s" % (label, metrics.precision(label)))
    print("Class %s recall = %s" % (label, metrics.recall(label)))
    print("Class %s F1 Measure = %s" % (label, metrics.f1Measure(label)))

# Micro stats
print("Micro precision = %s" % metrics.microPrecision)
print("Micro recall = %s" % metrics.microRecall)
print("Micro F1 measure = %s" % metrics.microF1Measure)

# Hamming loss
print("Hamming loss = %s" % metrics.hammingLoss)

# Subset accuracy
print("Subset accuracy = %s" % metrics.subsetAccuracy)

例の完全なコードは Spark のリポジトリの "examples/src/main/python/mllib/multi_label_metrics_example.py" で見つかります。

ランキングシステム

ランキングアルゴリズム(しばしばリコメンドシステムとして考えられます) の役割は、幾つかの訓練データに基づいた関連項目とドキュメントのセットをユーザに返すことです。関連性の定義は変わるかも知れず、通常はアプリケーション固有です。ランキングシステムマトリックスは、様々な状況でこれらのランキングあるいはリコメンドの効果を定量化することを目的とします。幾つかのマトリックスはレコメンドドキュメントのセットを関連するドキュメントのグラウンドトゥルースのセットと比較し、一方で他のマトリックスは数学的なレートを明示的に受け入れるかも知れません。

利用可能なマトリックス

ランキングシステムは通常 $M$ ユーザのセットを扱います。

$U = \left\{u_0, u_1, ..., u_{M-1}\right\}$

ドキュメントに関連する $N$のグラウンドトゥルースのセットを持つ各ユーザ ($u_i$)

$D_i = \left\{d_0, d_1, ..., d_{N-1}\right\}$

そして、関連の減少する順の $Q$のレコメンドされたドキュメントのリスト

$R_i = \left[r_0, r_1, ..., r_{Q-1}\right]$

ランキングシステムの目的は各ユーザについて最も関連のあるドキュメントのセットを生成することです。セットの関連とアルゴリズムの効率は、以下にリストするマトリックスを使って測定するすることができます。

レコメンドされたドキュメントおよび関連するドキュメントのグラウンドトゥルースのセットの条件下で、レコメンドされたドキュメントの関連スコアを返す関数を定義することが必要です。

$rel_D(r) = \begin{cases}1 & \text{if $r \in D$}, \\ 0 & \text{otherwise}.\end{cases}$

マトリックス	定義	備考
kでの精度	$p(k)=\frac{1}{M} \sum_{i=0}^{M-1} {\frac{1}{k} \sum_{j=0}^{\text{min}(\left\|D\right\|, k) - 1} rel_{D_i}(R_i(j))}$	kでの精度はどれだけの最初のkのレコメンド文章が全てのユーザ間で平均化された関連ドキュメントのtrueのセットの中にあるかの指標です。このマトリックス内で、レコメンドの順番は考慮されません。
平均精度の平均	$MAP=\frac{1}{M} \sum_{i=0}^{M-1} {\frac{1}{\left\|D_i\right\|} \sum_{j=0}^{Q-1} \frac{rel_{D_i}(R_i(j))}{j + 1}}$	MAPはどれだけ多くの推奨されたドキュメントがtrue関連ドキュメント内にあるかの測定法です。お勧めの順番が考慮されます(つまり、高い関連ドキュメントのための罰金は高くなります)。
正規減価累積利得	$NDCG(k)=\frac{1}{M} \sum_{i=0}^{M-1} {\frac{1}{IDCG(D_i, k)}\sum_{j=0}^{n-1} \frac{rel_{D_i}(R_i(j))}{\text{ln}(j+1)}} \\ \text{Where} \\ \hspace{5 mm} n = \text{min}\left(\text{max}\left(\|R_i\|,\|D_i\|\right),k\right) \\ \hspace{5 mm} IDCG(D, k) = \sum_{j=0}^{\text{min}(\left\|D\right\|, k) - 1} \frac{1}{\text{ln}(j+1)}$	kでのNDCG はどれだけの最初のkのレコメンド文章が全てのユーザ間で平均化された関連ドキュメントのtrueのセットの中にあるかの指標です。kでの精度とは対照的に、この測定基準はレコメンドの順序を考慮します(ドキュメントは関連の降順にあると見なされます)。

例

以下のコードの断片は標本データセットをどうやってロードするかを説明し、データ上の交互最小二乗法を訓練し、幾つかのランキングマトリックスを使ってレコメンドのパフォーマンスを評価します。方法論の簡単なサマリが以下で提供されます。

MovieLens レーティングは 1-5の段階上にあります:

5: 見るべき
4: たぶん楽しめる
3: いいんじゃない
2: かなり駄目
1: ひどいもんだ

つまり、もし予想レートが3未満であれば映画を進めるべきではありません。レートを確信スコアにマップするために、以下を使います:

5 -> 2.5
4 -> 1.5
3 -> 0.5
2 -> -0.5
1 -> -1.5.

このマッピングは観測されていないエントリが一般的にいいんじゃないとかなり駄目の間にあることを意味します。この非正数の重み付けの拡張された世界での0の意味は、"まったく惹かれなかったのと同じ"です。

APIの詳細はRegressionMetrics Scala ドキュメントおよび RankingMetrics Scala ドキュメントを参照してください。

import org.apache.spark.mllib.evaluation.{RankingMetrics, RegressionMetrics}
import org.apache.spark.mllib.recommendation.{ALS, Rating}

// Read in the ratings data
val ratings = spark.read.textFile("data/mllib/sample_movielens_data.txt").rdd.map { line =>
  val fields = line.split("::")
  Rating(fields(0).toInt, fields(1).toInt, fields(2).toDouble - 2.5)
}.cache()

// Map ratings to 1 or 0, 1 indicating a movie that should be recommended
val binarizedRatings = ratings.map(r => Rating(r.user, r.product,
  if (r.rating > 0) 1.0 else 0.0)).cache()

// Summarize ratings
val numRatings = ratings.count()
val numUsers = ratings.map(_.user).distinct().count()
val numMovies = ratings.map(_.product).distinct().count()
println(s"Got $numRatings ratings from $numUsers users on $numMovies movies.")

// Build the model
val numIterations = 10
val rank = 10
val lambda = 0.01
val model = ALS.train(ratings, rank, numIterations, lambda)

// Define a function to scale ratings from 0 to 1
def scaledRating(r: Rating): Rating = {
  val scaledRating = math.max(math.min(r.rating, 1.0), 0.0)
  Rating(r.user, r.product, scaledRating)
}

// Get sorted top ten predictions for each user and then scale from [0, 1]
val userRecommended = model.recommendProductsForUsers(10).map { case (user, recs) =>
  (user, recs.map(scaledRating))
}

// Assume that any movie a user rated 3 or higher (which maps to a 1) is a relevant document
// Compare with top ten most relevant documents
val userMovies = binarizedRatings.groupBy(_.user)
val relevantDocuments = userMovies.join(userRecommended).map { case (user, (actual,
predictions)) =>
  (predictions.map(_.product), actual.filter(_.rating > 0.0).map(_.product).toArray)
}

// Instantiate metrics object
val metrics = new RankingMetrics(relevantDocuments)

// Precision at K
Array(1, 3, 5).foreach { k =>
  println(s"Precision at $k = ${metrics.precisionAt(k)}")
}

// Mean average precision
println(s"Mean average precision = ${metrics.meanAveragePrecision}")

// Normalized discounted cumulative gain
Array(1, 3, 5).foreach { k =>
  println(s"NDCG at $k = ${metrics.ndcgAt(k)}")
}

// Get predictions for each data point
val allPredictions = model.predict(ratings.map(r => (r.user, r.product))).map(r => ((r.user,
  r.product), r.rating))
val allRatings = ratings.map(r => ((r.user, r.product), r.rating))
val predictionsAndLabels = allPredictions.join(allRatings).map { case ((user, product),
(predicted, actual)) =>
  (predicted, actual)
}

// Get the RMSE using regression metrics
val regressionMetrics = new RegressionMetrics(predictionsAndLabels)
println(s"RMSE = ${regressionMetrics.rootMeanSquaredError}")

// R-squared
println(s"R-squared = ${regressionMetrics.r2}")

例の完全なコードは Spark のリポジトリの "examples/src/main/scala/org/apache/spark/examples/mllib/RankingMetricsExample.scala" で見つかります。

APIの詳細はRegressionMetrics Java ドキュメントおよび RankingMetrics Java ドキュメントを参照してください。

import java.util.*;

import scala.Tuple2;

import org.apache.spark.api.java.*;
import org.apache.spark.mllib.evaluation.RegressionMetrics;
import org.apache.spark.mllib.evaluation.RankingMetrics;
import org.apache.spark.mllib.recommendation.ALS;
import org.apache.spark.mllib.recommendation.MatrixFactorizationModel;
import org.apache.spark.mllib.recommendation.Rating;

String path = "data/mllib/sample_movielens_data.txt";
JavaRDD<String> data = sc.textFile(path);
JavaRDD<Rating> ratings = data.map(line -> {
    String[] parts = line.split("::");
    return new Rating(Integer.parseInt(parts[0]), Integer.parseInt(parts[1]), Double
        .parseDouble(parts[2]) - 2.5);
  });
ratings.cache();

// Train an ALS model
MatrixFactorizationModel model = ALS.train(JavaRDD.toRDD(ratings), 10, 10, 0.01);

// Get top 10 recommendations for every user and scale ratings from 0 to 1
JavaRDD<Tuple2<Object, Rating[]>> userRecs = model.recommendProductsForUsers(10).toJavaRDD();
JavaRDD<Tuple2<Object, Rating[]>> userRecsScaled = userRecs.map(t -> {
    Rating[] scaledRatings = new Rating[t._2().length];
    for (int i = 0; i < scaledRatings.length; i++) {
      double newRating = Math.max(Math.min(t._2()[i].rating(), 1.0), 0.0);
      scaledRatings[i] = new Rating(t._2()[i].user(), t._2()[i].product(), newRating);
    }
    return new Tuple2<>(t._1(), scaledRatings);
  });
JavaPairRDD<Object, Rating[]> userRecommended = JavaPairRDD.fromJavaRDD(userRecsScaled);

// Map ratings to 1 or 0, 1 indicating a movie that should be recommended
JavaRDD<Rating> binarizedRatings = ratings.map(r -> {
    double binaryRating;
    if (r.rating() > 0.0) {
      binaryRating = 1.0;
    } else {
      binaryRating = 0.0;
    }
    return new Rating(r.user(), r.product(), binaryRating);
  });

// Group ratings by common user
JavaPairRDD<Object, Iterable<Rating>> userMovies = binarizedRatings.groupBy(Rating::user);

// Get true relevant documents from all user ratings
JavaPairRDD<Object, List<Integer>> userMoviesList = userMovies.mapValues(docs -> {
    List<Integer> products = new ArrayList<>();
    for (Rating r : docs) {
      if (r.rating() > 0.0) {
        products.add(r.product());
      }
    }
    return products;
  });

// Extract the product id from each recommendation
JavaPairRDD<Object, List<Integer>> userRecommendedList = userRecommended.mapValues(docs -> {
    List<Integer> products = new ArrayList<>();
    for (Rating r : docs) {
      products.add(r.product());
    }
    return products;
  });
JavaRDD<Tuple2<List<Integer>, List<Integer>>> relevantDocs = userMoviesList.join(
  userRecommendedList).values();

// Instantiate the metrics object
RankingMetrics<Integer> metrics = RankingMetrics.of(relevantDocs);

// Precision and NDCG at k
Integer[] kVector = {1, 3, 5};
for (Integer k : kVector) {
  System.out.format("Precision at %d = %f\n", k, metrics.precisionAt(k));
  System.out.format("NDCG at %d = %f\n", k, metrics.ndcgAt(k));
}

// Mean average precision
System.out.format("Mean average precision = %f\n", metrics.meanAveragePrecision());

// Evaluate the model using numerical ratings and regression metrics
JavaRDD<Tuple2<Object, Object>> userProducts =
    ratings.map(r -> new Tuple2<>(r.user(), r.product()));

JavaPairRDD<Tuple2<Integer, Integer>, Object> predictions = JavaPairRDD.fromJavaRDD(
  model.predict(JavaRDD.toRDD(userProducts)).toJavaRDD().map(r ->
    new Tuple2<>(new Tuple2<>(r.user(), r.product()), r.rating())));
JavaRDD<Tuple2<Object, Object>> ratesAndPreds =
  JavaPairRDD.fromJavaRDD(ratings.map(r ->
    new Tuple2<Tuple2<Integer, Integer>, Object>(
      new Tuple2<>(r.user(), r.product()),
      r.rating())
  )).join(predictions).values();

// Create regression metrics object
RegressionMetrics regressionMetrics = new RegressionMetrics(ratesAndPreds.rdd());

// Root mean squared error
System.out.format("RMSE = %f\n", regressionMetrics.rootMeanSquaredError());

// R-squared
System.out.format("R-squared = %f\n", regressionMetrics.r2());

例の完全なコードは Spark のリポジトリの "examples/src/main/java/org/apache/spark/examples/mllib/JavaRankingMetricsExample.java" で見つかります。

APIについての詳細はRegressionMetrics Python ドキュメントおよびRankingMetrics Python ドキュメントを参照してください。

from pyspark.mllib.recommendation import ALS, Rating
from pyspark.mllib.evaluation import RegressionMetrics, RankingMetrics

# Read in the ratings data
lines = sc.textFile("data/mllib/sample_movielens_data.txt")

def parseLine(line):
    fields = line.split("::")
    return Rating(int(fields[0]), int(fields[1]), float(fields[2]) - 2.5)
ratings = lines.map(lambda r: parseLine(r))

# Train a model on to predict user-product ratings
model = ALS.train(ratings, 10, 10, 0.01)

# Get predicted ratings on all existing user-product pairs
testData = ratings.map(lambda p: (p.user, p.product))
predictions = model.predictAll(testData).map(lambda r: ((r.user, r.product), r.rating))

ratingsTuple = ratings.map(lambda r: ((r.user, r.product), r.rating))
scoreAndLabels = predictions.join(ratingsTuple).map(lambda tup: tup[1])

# Instantiate regression metrics to compare predicted and actual ratings
metrics = RegressionMetrics(scoreAndLabels)

# Root mean squared error
print("RMSE = %s" % metrics.rootMeanSquaredError)

# R-squared
print("R-squared = %s" % metrics.r2)

例の完全なコードは Spark のリポジトリの "examples/src/main/python/mllib/ranking_metrics_example.py" で見つかります。

回帰モデルの評価

回帰分析は多くの独立変数から連続する出力変数を予測する場合に使われます。

利用可能なマトリックス

マトリックス	定義
平均二乗誤差 (MSE)	$MSE = \frac{\sum_{i=0}^{N-1} (\mathbf{y}_i - \hat{\mathbf{y}}_i)^2}{N}$
平均二乗平方根誤差 (RMSE)	$RMSE = \sqrt{\frac{\sum_{i=0}^{N-1} (\mathbf{y}_i - \hat{\mathbf{y}}_i)^2}{N}}$
平均絶対誤差 (MAE)	$MAE=\sum_{i=0}^{N-1} \left\|\mathbf{y}_i - \hat{\mathbf{y}}_i\right\|$
決定係数 $(R^2)$	$R^2=1 - \frac{MSE}{\text{VAR}(\mathbf{y}) \cdot (N-1)}=1-\frac{\sum_{i=0}^{N-1} (\mathbf{y}_i - \hat{\mathbf{y}}_i)^2}{\sum_{i=0}^{N-1}(\mathbf{y}_i-\bar{\mathbf{y}})^2}$
説明分散	$1 - \frac{\text{VAR}(\mathbf{y} - \mathbf{\hat{y}})}{\text{VAR}(\mathbf{y})}$

例

以下のコードの断片は標本データセットをどうやってロードするかを説明し、データ上の線形回帰アルゴリズムを訓練し、幾つかの回帰マトリックスによってアルゴリズムのパフォーマンスを評価します。

APIの詳細はRegressionMetrics Scala ドキュメントを参照してください。

import org.apache.spark.mllib.evaluation.RegressionMetrics
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.mllib.regression.{LabeledPoint, LinearRegressionWithSGD}

// Load the data
val data = spark
  .read.format("libsvm").load("data/mllib/sample_linear_regression_data.txt")
  .rdd.map(row => LabeledPoint(row.getDouble(0), row.get(1).asInstanceOf[Vector]))
  .cache()

// Build the model
val numIterations = 100
val model = LinearRegressionWithSGD.train(data, numIterations)

// Get predictions
val valuesAndPreds = data.map{ point =>
  val prediction = model.predict(point.features)
  (prediction, point.label)
}

// Instantiate metrics object
val metrics = new RegressionMetrics(valuesAndPreds)

// Squared error
println(s"MSE = ${metrics.meanSquaredError}")
println(s"RMSE = ${metrics.rootMeanSquaredError}")

// R-squared
println(s"R-squared = ${metrics.r2}")

// Mean absolute error
println(s"MAE = ${metrics.meanAbsoluteError}")

// Explained variance
println(s"Explained variance = ${metrics.explainedVariance}")

例の完全なコードは Spark のリポジトリの "examples/src/main/scala/org/apache/spark/examples/mllib/RegressionMetricsExample.scala" で見つかります。

APIの詳細はRegressionMetrics Java ドキュメントを参照してください。

import scala.Tuple2;

import org.apache.spark.api.java.*;
import org.apache.spark.mllib.linalg.Vectors;
import org.apache.spark.mllib.regression.LabeledPoint;
import org.apache.spark.mllib.regression.LinearRegressionModel;
import org.apache.spark.mllib.regression.LinearRegressionWithSGD;
import org.apache.spark.mllib.evaluation.RegressionMetrics;
import org.apache.spark.SparkConf;

// Load and parse the data
String path = "data/mllib/sample_linear_regression_data.txt";
JavaRDD<String> data = sc.textFile(path);
JavaRDD<LabeledPoint> parsedData = data.map(line -> {
  String[] parts = line.split(" ");
  double[] v = new double[parts.length - 1];
  for (int i = 1; i < parts.length; i++) {
    v[i - 1] = Double.parseDouble(parts[i].split(":")[1]);
  }
  return new LabeledPoint(Double.parseDouble(parts[0]), Vectors.dense(v));
});
parsedData.cache();

// Building the model
int numIterations = 100;
LinearRegressionModel model = LinearRegressionWithSGD.train(JavaRDD.toRDD(parsedData),
  numIterations);

// Evaluate model on training examples and compute training error
JavaPairRDD<Object, Object> valuesAndPreds = parsedData.mapToPair(point ->
  new Tuple2<>(model.predict(point.features()), point.label()));

// Instantiate metrics object
RegressionMetrics metrics = new RegressionMetrics(valuesAndPreds.rdd());

// Squared error
System.out.format("MSE = %f\n", metrics.meanSquaredError());
System.out.format("RMSE = %f\n", metrics.rootMeanSquaredError());

// R-squared
System.out.format("R Squared = %f\n", metrics.r2());

// Mean absolute error
System.out.format("MAE = %f\n", metrics.meanAbsoluteError());

// Explained variance
System.out.format("Explained Variance = %f\n", metrics.explainedVariance());

// Save and load model
model.save(sc.sc(), "target/tmp/LogisticRegressionModel");
LinearRegressionModel sameModel = LinearRegressionModel.load(sc.sc(),
  "target/tmp/LogisticRegressionModel");

例の完全なコードは Spark のリポジトリの "examples/src/main/java/org/apache/spark/examples/mllib/JavaRegressionMetricsExample.java" で見つかります。

APIの詳細はRegressionMetrics Python ドキュメントを参照してください。

from pyspark.mllib.regression import LabeledPoint, LinearRegressionWithSGD
from pyspark.mllib.evaluation import RegressionMetrics
from pyspark.mllib.linalg import DenseVector

# Load and parse the data
def parsePoint(line):
    values = line.split()
    return LabeledPoint(float(values[0]),
                        DenseVector([float(x.split(':')[1]) for x in values[1:]]))

data = sc.textFile("data/mllib/sample_linear_regression_data.txt")
parsedData = data.map(parsePoint)

# Build the model
model = LinearRegressionWithSGD.train(parsedData)

# Get predictions
valuesAndPreds = parsedData.map(lambda p: (float(model.predict(p.features)), p.label))

# Instantiate metrics object
metrics = RegressionMetrics(valuesAndPreds)

# Squared Error
print("MSE = %s" % metrics.meanSquaredError)
print("RMSE = %s" % metrics.rootMeanSquaredError)

# R-squared
print("R-squared = %s" % metrics.r2)

# Mean absolute error
print("MAE = %s" % metrics.meanAbsoluteError)

# Explained variance
print("Explained variance = %s" % metrics.explainedVariance)

例の完全なコードは Spark のリポジトリの "examples/src/main/python/mllib/regression_metrics_example.py" で見つかります。

MLlib: メインガイド

MLlib: RDDベースのAPIガイド

評価マトリックス - RDDベースのAPI

分類モデルの評価

二値分類

閾値の調整

多クラス分類

ラベルに基づいたマトリックス

多ラベル分類

ランキングシステム

回帰モデルの評価

MLlib: メイン ガイド

MLlib: RDDベースのAPIガイド

評価マトリックス - RDDベースのAPI

分類モデルの評価

二値分類

閾値の調整

多クラス分類

ラベルに基づいたマトリックス

多ラベル分類

ランキング システム

回帰モデルの評価

MLlib: メインガイド

ランキングシステム