データ ソース
この章では、MLでデータをロードするためにデータソースをどう使うかを説明します。Parquet, CSV, JSON および JDBC のような一般的なデータソースの他に、ML用の特定のデータソースも提供します。
目次
イメージ データソース
この画像データソースはディレクトリから画像ファイルをロードするために使われ、JavaライブラリのImageIO
を使って圧縮画像 (jpeg, png など) を生の画像表現にロードすることができます。ロードされたデータフレームは1つのStructType
カラムを持ちます: “image”。イメージスキーマとして格納された画像データを含みます。image
のカラムのスキーマは以下の通りです:
- origin:
StringType
(イメージのファイルパスを表す) - height:
IntegerType
(イメージの高さ) - width:
IntegerType
(イメージの幅) - nChannels:
IntegerType
(イメージのチャネルの数) - mode:
IntegerType
(OpenCV互換の型) - data:
BinaryType
(OpenCV互換の順のイメージのバイト: 多くの場合において行方向のBGR)
ImageDataSource
はイメージデータをデータフレームとしてロードするためのSpark SQLデータソースAPIを実装します。
ImageDataSource
implements Spark SQL data source API for loading image data as a DataFrame.
PySparkでは、イメージデータをデータフレームとしてロードするためにSpark SQLデータソース APIを提供します。
SparkRでは、イメージデータをデータフレームとしてロードするためにSpark SQLデータソース APIを提供します。
LIBSVM データソース
この LIBSVM
データソースは、ディレクトリから ‘libsvm’ のタイプのファイルをロードするために使われます。ロードされたデータフレームには2つの列があります: double として保存されたラベルを含む label と、Vector として保存された特徴ベクトルを含む features。カラムのスキーマは以下の通りです:
- label:
DoubleType
(インスタンスのラベルを表す) - features:
VectorUDT
(特徴ベクトルを表す)
LibSVMDataSource
はLIBSVM
データをデータフレームとしてロードするためのSpark SQLデータソースAPIを実装します。
LibSVMDataSource
はLIBSVM
データをデータフレームとしてロードするためのSpark SQLデータソースAPIを実装します。
PySparkでは、LIBSVM
データをデータフレームとしてロードするためにSpark SQLデータソース APIを提供します。
SparkRでは、LIBSVM
データをデータフレームとしてロードするためにSpark SQLデータソース APIを提供します。