详解kettle之UserDefinedJavaClass步骤（二）-mysql教程-PHP中文网

首页

数据库

mysql教程

详解kettle之UserDefinedJavaClass步骤（二）

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:02 PM

详解

详解User Defined Java Class步骤（二） kettle中的user defined java class步骤，也称UDJC步骤，从4.0版本就有，功能非常强大，无所不能；可以在其中写任意代码，却不影响效率。本文将详细介绍在不同场景中用示例展示如果使用该步骤，由于内容非常多，便于

详解User Defined Java Class步骤（二）

kettle中的“user defined java class”步骤，也称UDJC步骤，从4.0版本就有，功能非常强大，无所不能；可以在其中写任意代码，却不影响效率。本文将详细介绍在不同场景中用示例展示如果使用该步骤，由于内容非常多，便于阅读方便，把内容分成三部分，请完整看完全部内容，示例代码在这里下载.

如果没有从第一部分开始，请访问第一部分。

使用步骤参数（Step Parameter）

如果你写了一段代码，如果想让带更通用，步骤参数这时就能用到；在示例中，我们提供一个正则表达式和一个字段的名称，该步骤检查参数对应的字段是否匹配正则表达式，如果是返回结果为1，反之为0。

代码如下：

import java.util.regex.Pattern;

private Pattern p = null;

private FieldHelper fieldToTest = null;

private FieldHelper outputField = null;

public boolean processRow(StepMetaInterfacesmi, StepDataInterface sdi) throws KettleException

{

Object[] r = getRow();

if (r == null) {

setOutputDone();

return false;

}

// prepare regex and field helpers

if (first){

first = false;

String regexString = getParameter("regex");

p = Pattern.compile(regexString);

fieldToTest = get(Fields.In, getParameter("test_field"));

outputField = get(Fields.Out, "result");

}

r= createOutputRow(r, data.outputRowMeta.size());

// Get the value from an input field

String test_value = fieldToTest.getString(r);

// test for match and write result

if (p.matcher(test_value).matches()){

outputField.setValue(r, Long.valueOf(1));

}

else{

outputField.setValue(r, Long.valueOf(0));

}

// Send the row on to the next step.

putRow(data.outputRowMeta, r);

return true;

}

getParameter（）方法返回在ui界面中定义的参数对应值内容，当然参数的值也可能是kettle的变量。把变量作为参数是使用变量通常的做法。我们可以在步骤的xml代码中手工搜索到变量。

示例的转换名称是:parameter.ktr.

消息步骤(Info Steps)使用

有时需要合并多个输入步骤，可能赋予不同的角色，就如流查询步骤。消息步骤用来提供查询，其数据行不通过getRow（）方法返回。在udjc步骤中非常容易使用。在udjc步骤的ui界面消息步骤选项卡中定义，通过getRowsFrom()方法返回对应的值。

示例转换中使用消息步骤接收一组正则表达式，用其测试主流数据中的一个字段是否匹配，如果任何一个表达式匹配，结果字段设置为1.如果没有任何匹配，则结果为0，同时附加输出匹配的表达式。

代码如下：

import java.util.regex.Pattern;

import java.util.*;

private FieldHelper resultField = null;

private FieldHelper matchField = null;

private FieldHelper outputField = null;

private FieldHelper inputField = null;

private ArrayList patterns = newArrayList(20);

private ArrayList expressions = newArrayList(20);

public boolean processRow(StepMetaInterfacesmi, StepDataInterface sdi) throws KettleException

{

Object[] r = getRow();

if (r == null) {

setOutputDone();

return false;

}

// prepare regex and field helpers

if (first){

first = false;

// get the input and output fields

resultField = get(Fields.Out, "result");

matchField = get(Fields.Out, "matched_by");

inputField = get(Fields.In, "value");

// get all rows from the info stream andcompile the regex field to patterns

FieldHelper regexField = get(Fields.Info, "regex");

RowSet infoStream = findInfoRowSet("expressions");

Object[] infoRow = null;

while((infoRow = getRowFrom(infoStream)) != null){

String regexString = regexField.getString(infoRow);

expressions.add(regexString);

patterns.add(Pattern.compile(regexString));

}

// get the value of the field to check

String value = inputField.getString(r);

// check if any pattern matches

int matchFound = 0;

String matchExpression = null;

for(int i=0;i

if (((Pattern) patterns.get(i)).matcher(value).matches()){

matchFound = 1;

matchExpression = (String)expressions.get(i);

break;

}

// write result to stream

r= createOutputRow(r, data.outputRowMeta.size());

resultField.setValue(r, Long.valueOf(matchFound));

matchField.setValue(r, matchExpression);

// Send the row on to the next step.

putRow(data.outputRowMeta, r);

return true;

}

调用findInfoRowSet（）方法，返回在udjc步骤的消息步骤中定义的名称对应的输入步骤的整个行集内容。从行集内容中读取某行与从主数据流中去某行不同，通过调用getRowFrom（），并显示指明那个行集。

示例转换的名称为info_steps.ktr.

使用目标步骤（Target Steps）

使用udjc步骤有时可能需要指定行集流转到不同的目标步骤。通过调用putRow（）方法，并传递一个目标步骤作为参数。我们需要在udjc步骤的ui界面的目标步骤中定义所有可能的目标步骤，下面示例中随机分发行数据到不同弄的目标步骤。

findTargetRowSet（）方法返回在ui界面中定义的目标步骤行集，并作为putRowto（）方法的参数.示例转换的名称为target_steps.ktr.

代码如下：

import java.util.regex.Pattern;

import java.util.*;

private RowSet lowProbStream = null;

private RowSet highProbStream = null;

public boolean processRow(StepMetaInterfacesmi, StepDataInterface sdi) throws KettleException

{

Object[]r = getRow();

if(r == null) {

setOutputDone();

returnfalse;

}

//prepare regex and field helpers

if (first){

first = false;

lowProbStream= findTargetRowSet("low_probability");

highProbStream= findTargetRowSet("high_probability");

}

//Send the row on to the next step.

if(Math.random()

putRowTo(data.outputRowMeta, r,lowProbStream);

}

else{

putRowTo(data.outputRowMeta, r,highProbStream);

}

returntrue;

}

更多内容请查看第三部分；

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

MySQL中的存储过程是什么？May 01, 2025 am 12:27 AM

存储过程是MySQL中的预编译SQL语句集合，用于提高性能和简化复杂操作。1.提高性能：首次编译后，后续调用无需重新编译。2.提高安全性：通过权限控制限制数据表访问。3.简化复杂操作：将多条SQL语句组合，简化应用层逻辑。

查询缓存如何在MySQL中工作？May 01, 2025 am 12:26 AM

MySQL查询缓存的工作原理是通过存储SELECT查询的结果，当相同查询再次执行时，直接返回缓存结果。1）查询缓存提高数据库读取性能，通过哈希值查找缓存结果。2）配置简单，在MySQL配置文件中设置query_cache_type和query_cache_size。3）使用SQL_NO_CACHE关键字可以禁用特定查询的缓存。4）在高频更新环境中，查询缓存可能导致性能瓶颈，需通过监控和调整参数优化使用。

与其他关系数据库相比，使用MySQL的优点是什么？May 01, 2025 am 12:18 AM

MySQL被广泛应用于各种项目中的原因包括：1.高性能与可扩展性，支持多种存储引擎；2.易于使用和维护，配置简单且工具丰富；3.丰富的生态系统，吸引大量社区和第三方工具支持；4.跨平台支持，适用于多种操作系统。

您如何处理MySQL中的数据库升级？Apr 30, 2025 am 12:28 AM

MySQL数据库升级的步骤包括：1.备份数据库，2.停止当前MySQL服务，3.安装新版本MySQL，4.启动新版本MySQL服务，5.恢复数据库。升级过程需注意兼容性问题，并可使用高级工具如PerconaToolkit进行测试和优化。

您可以使用MySQL的不同备份策略是什么？Apr 30, 2025 am 12:28 AM

MySQL备份策略包括逻辑备份、物理备份、增量备份、基于复制的备份和云备份。1.逻辑备份使用mysqldump导出数据库结构和数据，适合小型数据库和版本迁移。2.物理备份通过复制数据文件，速度快且全面，但需数据库一致性。3.增量备份利用二进制日志记录变化，适用于大型数据库。4.基于复制的备份通过从服务器备份，减少对生产系统的影响。5.云备份如AmazonRDS提供自动化解决方案，但成本和控制需考虑。选择策略时应考虑数据库大小、停机容忍度、恢复时间和恢复点目标。

什么是mySQL聚类？Apr 30, 2025 am 12:28 AM

MySQLclusteringenhancesdatabaserobustnessandscalabilitybydistributingdataacrossmultiplenodes.ItusestheNDBenginefordatareplicationandfaulttolerance,ensuringhighavailability.Setupinvolvesconfiguringmanagement,data,andSQLnodes,withcarefulmonitoringandpe

如何优化数据库架构设计以在MySQL中的性能？Apr 30, 2025 am 12:27 AM

在MySQL中优化数据库模式设计可通过以下步骤提升性能：1.索引优化：在常用查询列上创建索引，平衡查询和插入更新的开销。2.表结构优化：通过规范化或反规范化减少数据冗余，提高访问效率。3.数据类型选择：使用合适的数据类型，如INT替代VARCHAR，减少存储空间。4.分区和分表：对于大数据量，使用分区和分表分散数据，提升查询和维护效率。

您如何优化MySQL性能？Apr 30, 2025 am 12:26 AM

tooptimizemysqlperformance，lofterTheSeSteps：1）inasemproperIndexingTospeedUpqueries，2）使用ExplaintplaintoAnalyzeandoptimizequeryPerformance，3）ActiveServerConfigurationStersLikeTlikeTlikeTlikeIkeLikeIkeIkeLikeIkeLikeIkeLikeIkeLikeNodb_buffer_pool_sizizeandmax_connections，4）

See all articles