バイナリファイルデータソース
Spark 3.0 から、Spark はバイナリファイルデータソースをサポートします。これは、バイナリファイルを読み取り、各ファイルをファイルの生の内容とメタデータを含む1つのレコードに変換します。以下のカラムと、場合によってはパーティション列を持つデータフレームを生成します:
path
: StringTypemodificationTime
: TimestampTypelength
: LongTypecontent
: BinaryType
バイナリファイル全体を読み取るには、binaryFile
としてデータソース format
を指定する必要があります。パーティション検出の動作を維持しながら、特定の glob パターンに一致するパスを持つファイルをロードするために、一般的なデータソースオプション pathGlobFilter
を使うことができます。例えば、以下のコードは入力ディレクトリから全ての PNG ファイルを読み取ります:
バイナリファイルのデータソースは、データフレームを元のファイルに書き戻すことをサポートしません。