Hive の組み込み関数
定義: (推奨学習: PHPSTOS #
UDF(User-Defined-Function),用户自定义函数对数据进行处理。 UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。 UDAF(User Defined Aggregation Function)用户自定义聚合函数,操作多个数据行,产生一个数据行。
使用法:
1. UDF 関数は、select ステートメントに直接適用し、クエリ構造をフォーマットして、コンテンツを出力できます。 2. UDF 関数を作成するときは、次の点に注意する必要があります: a) カスタム UDF は org.apache.hadoop.hive.ql.UDF を継承する必要があります。 b) 評価関数を実装する必要があります。 c) 評価関数はオーバーロードをサポートしています。hive のローカル モード:
ほとんどの Hadoop ジョブは、ビッグ データを処理するために Hadoop によって提供される完全なスケーラビリティを必要とします。 ただし、ハイブへの入力データの量が非常に少ない場合があります。この場合、クエリのタスクの実行にかかる時間は、実際のジョブの実行時間よりも大幅に長くなる可能性があります。 これらの状況のほとんどでは、Hive はローカル モードを通じて 1 台のマシン上ですべてのタスクを処理できます。データセットが小さい場合、実行時間は大幅に短縮されます。 この方法では、比較的少量のデータを含む操作をローカルで実行できます。これは、タスクをクラスターに送信して実行するよりもはるかに高速です。次のパラメーターを構成して Hive のローカル モードを有効にします:
hive> set hive.exec.mode.local.auto=true;(默认为false)
ジョブが次の条件を満たす場合にのみ、ローカル モードを使用できます。 :
ジョブの入力データ サイズはパラメータ hive.exec.mode.local.auto.inputbytes.max (デフォルト 128MB)## よりも小さい必要があります。 #ジョブのマップの数はパラメータより小さくなければなりません: hive.exec.mode.local.auto.tasks.max (デフォルトは 4)
ジョブの削減数は 0 または 1 である必要があります
以上がハイブにはどのような機能があるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。