機能

Spark SQL は、幅広いユーザのニーズを満たすために、2つの関数機能を提供します: 組み込み関数とユーザ定義関数 (UDF)。組み込み関数は、Spark SQL で事前定義されている一般的に使われるルーチンで、関数の完全なリストは 組み込み関数 API ドキュメントにあります。UDF により、システムの組み込み関数では目的のタスクを実行するのに十分ではない場合に、ユーザが独自の関数を定義することができます。

組み込みの関数

Spark SQL には、集約、配列/マップ、日付/タイムスタンプ、JSONデータに頻繁に使われる組み込み関数の幾つかのカテゴリがあります。このサブセクションでは、これらの関数の使い方と説明を示します。

Scalar 関数

集約のような関数

UDF (ユーザ定義関数)

ユーザ定義関数 (UDFs) は Spark SQL の機能で、システムの組み込み関数では目的のタスクを実行するのに十分ではない場合に、ユーザが独自の関数を定義することができます。Spark SQL で UDF を使うには、ユーザは最初に関数を定義し、その関数を Spark に定義し、最後に登録した関数を呼び出す必要があります。ユーザ定義関数は、単一の行に作用することも、複数の行に一度に作用することもできます。Spark SQL は、UDF、UDAF、UDTF の既存の Hive 実装の統合もサポートします。

TOP
inserted by FC2 system