バイナリファイルデータソース

Spark 3.0 から、Spark はバイナリファイルデータソースをサポートします。これは、バイナリファイルを読み取り、各ファイルをファイルの生の内容とメタデータを含む1つのレコードに変換します。以下のカラムと、場合によってはパーティション列を持つデータフレームを生成します:

バイナリファイル全体を読み取るには、binaryFile としてデータソース format を指定する必要があります。パーティション検出の動作を維持しながら、特定の glob パターンに一致するパスを持つファイルをロードするために、一般的なデータソースオプション pathGlobFilter を使うことができます。例えば、以下のコードは入力ディレクトリから全ての PNG ファイルを読み取ります:

spark.read.format("binaryFile").option("pathGlobFilter", "*.png").load("/path/to/data")
spark.read().format("binaryFile").option("pathGlobFilter", "*.png").load("/path/to/data");
spark.read.format("binaryFile").option("pathGlobFilter", "*.png").load("/path/to/data")
read.df("/path/to/data", source = "binaryFile", pathGlobFilter = "*.png")

バイナリファイルのデータソースは、データフレームを元のファイルに書き戻すことをサポートしません。

TOP
inserted by FC2 system