Tf-idf 変換器

Tf–idfは、単語の出現頻度-逆文書頻度 の略で、単語がコレクションあるいはコープスの中でどれだけ重要かを反映すること目的とする数の関する統計量です。

コンストラクタのパラメータ

  • $samples (array) - tf-idf モデルに適合するための標本
use Phpml\FeatureExtraction\TfIdfTransformer;

$samples = [
    [1, 2, 4],
    [0, 2, 1]
];

$transformer = new TfIdfTransformer($samples);

変換

テキストの標本のコレクションを変換するには、transform メソッドを使います。例:

use Phpml\FeatureExtraction\TfIdfTransformer;

$samples = [
    [0 => 1, 1 => 1, 2 => 2, 3 => 1, 4 => 0, 5 => 0],
    [0 => 1, 1 => 1, 2 => 0, 3 => 0, 4 => 2, 5 => 3],
];

$transformer = new TfIdfTransformer($samples);
$transformer->transform($samples);

/*
$samples = [
   [0 => 0, 1 => 0, 2 => 0.602, 3 => 0.301, 4 => 0, 5 => 0],
   [0 => 0, 1 => 0, 2 => 0, 3 => 0, 4 => 0.602, 5 => 0.903],
];
*/