Oracle 的 bulk collect用法

2016-06-07 17:04 1917浏览原创

FORALL语句的一个关键性改进，它可大大简化代码，并且对于那些要在PL/SQL程序中更新很多行数据的程序来说，它可显著提高其性能。

forall语句的一个关键性改进，它可大大简化代码，并且对于那些要在pl/sql程序中更新很多行数据的程序来说，它可显著提高其性能。
1:
用forall来增强dml的处理能力
oracle为oracle8i中的pl/sql引入了两个新的数据操纵语言（dml）语句：bulk collect和forall。这两个语句在pl/sql内部进行一种数组处理
；bulk collect提供对数据的高速检索，forall可大大改进insert、update和delete操作的性能。oracle数据库使用这些语句大大减少了
pl/sql与sql语句执行引擎的环境切换次数，从而使其性能有了显著提高。
使用bulk collect，你可以将多个行引入一个或多个集合中，而不是单独变量或记录中。下面这个bulkcollect的实例是将标题中包含
有"pl/sql"的所有书籍检索出来并置于记录的一个关联数组中，它们都位于通向该数据库的单一通道中。
declare
type books_aat
is table of book%rowtype
index by pls_integer;
books books_aat;
begin
select *
bulk collect into book
from books
where title like '%pl/sql%';
...
end;
类似地，forall将数据从一个pl/sql集合传送给指定的使用集合的表。下面的代码实例给出一个过程，即接收书籍信息的一个嵌套表，并将该
集合（绑定数组）的全部内容插入该书籍表中。注意，这个例子还利用了oracle9i的forall的增强功能，可以将一条记录直接插入到表中。
bulk collect和forall都非常有用，它们不仅提高了性能，而且还简化了为pl/sql中的sql操作所编写的代码。下面的多行forall insert相当
清楚地说明了为什么pl/sql被认为是oracle数据库的最佳编程语言。
create type books_nt
is table of book%rowtype;
/
create or replace procedure add_books (
books_in in books_nt)
is
begin
forall book_index
in books_in.first .. books_in.last
insert into book
values books_in(book_index);
...
end;
不过在oracle数据库10g之前，以forall方式使用集合有一个重要的限制：该数据库从in范围子句中的第一行到最后一行，依次读取集合的内容
。如果在该范围内遇到一个未定义的行，oracle数据库将引发ora-22160异常事件：
ora-22160: element at index [n] does notexist
对于forall的简单应用，这一规则不会引起任何麻烦。但是，如果想尽可能地充分利用forall，那么要求任意forall驱动数组都要依次填充可
能会增加程序的复杂性并降低性能。
在oracle数据库10g中，pl/sql现在在forall语句中提供了两个新子句：indices of与values of，它们使你能够仔细选择驱动数组中该由扩展
dml语句来处理的行。
当绑定数组为稀疏数组或者包含有间隙时，indices of会非常有用。该语句的语法结构为：
forall indx in indices
of sparse_collection
insert into my_table
values sparse_collection (indx);
values of用于一种不同的情况：绑定数组可以是稀疏数组，也可以不是，但我只想使用该数组中元素的一个子集。那么我就可以使用values
of来指向我希望在dml操作中使用的值。该语句的语法结构为：
forall indx in values of pointer_array
insert into my_table
values binding_array (indx);
不用for循环而改用forall
假定我需要编写一个程序，对合格员工（由comp_analysis.is_eligible函数确定）加薪，编写关于不符合加薪条件的员工的报告并写入
employee_history表。我在一个非常大的公司工作；我们的员工非常非常多。
对于一位pl/sql开发人员来说，这并不是一项十分困难的工作。我甚至不需要使用bulkcollect或forall就可以完成这项工作，如清单 1所示
，我使用一个cursorfor循环和单独的insert及update语句。这样的代码简洁明了；不幸地是，我花了10分钟来运行此代码，我的"老式"方法
要运行30分钟或更长时间。
清单 1:
create or replace proceduregive_raises_in_department (
dept_in in employee.department_id%type
, newsal in employee.salary%type
)
is
cursor emp_cur
is
select employee_id, salary, hire_date
from employee
where department_id = dept_in;
begin
for emp_rec in emp_cur
loop
if comp_analysis.is_eligible (emp_rec.employee_id)
then
update employee
set salary = newsal
where employee_id =emp_rec.employee_id;
else
insert into employee_history
(employee_id, salary
, hire_date, activity
)
values (emp_rec.employee_id,emp_rec.salary
, emp_rec.hire_date,'raise denied'
);
end if;
end loop;
end give_raises_in_department;
好在我公司的数据库升级到了oracle9i，而且更幸运的是，在最近的oracle研讨会上（以及oracle技术网站提供的非常不错的演示中）我了解
到了批量处理方法。所以我决定使用集合与批量处理方法重新编写程序。写好的程序如清单 2所示。
清单 2:
1 create or replace proceduregive_raises_in_department (
2    dept_in in employee.department_id%type
3   ,newsal in employee.salary%type
4 )
5 is
6    type employee_aat is table of employee.employee_id%type
7       index by pls_integer;
8    type salary_aat is table of employee.salary%type
9       index by pls_integer;
10    type hire_date_aat is table of employee.hire_date%type
11       index by pls_integer;
12
13    employee_ids employee_aat;
14    salaries salary_aat;
15    hire_dates hire_date_aat;
16
17    approved_employee_ids employee_aat;
18
19    denied_employee_ids employee_aat;
20    denied_salaries salary_aat;
21    denied_hire_dates hire_date_aat;
22
23    procedure retrieve_employee_info
24    is
25    begin
26       select employee_id, salary, hire_date
27       bulk collect into employee_ids, salaries, hire_dates
28         from employee
29        where department_id = dept_in;
30    end;
31
32    procedure partition_by_eligibility
33    is
34    begin
35       for indx in employee_ids.first .. employee_ids.last
36       loop
37          if comp_analysis.is_eligible (employee_ids (indx))
38           then
39              approved_employee_ids (indx) :=employee_ids (indx);
40          else
41              denied_employee_ids (indx) :=employee_ids (indx);
42              denied_salaries (indx) :=salaries (indx);
43              denied_hire_dates (indx) :=hire_dates (indx);
44          end if;
45       end loop;
46    end;
47
48    procedure add_to_history
49    is
50    begin
51       forall indx in denied_employee_ids.first .. denied_employee_ids.last
52          insert into employee_history
53                       (employee_id
54                      , salary
55                      , hire_date, activity
56                       )
57                values (denied_employee_ids(indx)
58                      , denied_salaries (indx)
59                      , denied_hire_dates(indx), 'raise denied'
60                       );
61    end;
62
63    procedure give_the_raise
64    is
65    begin
66       forall indx in approved_employee_ids.first .. approved_employee_ids.last
67          update employee
68              set salary = newsal
69            where employee_id =approved_employee_ids (indx);
70    end;
71 begin
72    retrieve_employee_info;
73    partition_by_eligibility;
74    add_to_history;
75    give_the_raise;
76 end give_raises_in_department;
扫一眼清单1 和清单2 就会清楚地认识到：改用集合和批量处理方法将增加代码量和复杂性。但是，如果你需要大幅度提升性能，这还是值得
的。下面，我们不看这些代码，我们来看一看当使用forall时，用什么来处理cursorfor循环内的条件逻辑。
定义集合类型与集合
在清单 2中，声明段的第一部分（第6行至第11行）定义了几种不同的集合类型，与我将从员工表检索出的列相对应。我更喜欢基于employee%
rowtype来声明一个集合类型，但是forall还不支持对某些记录集合的操作，在这样的记录中，我将引用个别字段。所以，我还必须为员工id、
薪金和雇用日期分别声明其各自的集合。
接下来为每一列声明所需的集合（第13行至第21行）。首先定义与所查询列相对应的集合（第13行至第15行）：
employee_ids employee_aat;
salaries salary_aat;
hire_dates hire_date_aat;
然后我需要一个新的集合，用于存放已被批准加薪的员工的id（第17行）：
approved_employee_ids employee_aat;
最后，我再每一列声明一个集合（第19行至第21行），用于记录没有加薪资格的员工：
denied_employee_ids employee_aat;
denied_salaries salary_aat;
denied_hire_dates hire_date_aat;
深入了解代码
数据结构确定后，我们现在跳过该程序的执行部分（第72行至第75行），了解如何使用这些集合来加速进程。
retrieve_employee_info;
partition_by_eligibility;
add_to_history;
give_the_raise;
我编写此程序使用了逐步细化法（也被称为"自顶向下设计"）。所以执行部分不是很长，也不难理解，只有四行，按名称对过程中的每一步进
行了描述。首先检索员工信息（指定部门的所有员工）。然后进行划分，将要加薪和不予加薪的员工区分出来。完成之后，我就可以将那些不
予加薪的员工添加至员工历史表中，对其他员工进行加薪。
以这种方式编写代码使最终结果的可读性大大增强。因而我可以深入到该程序中对我有意义的任何部分。
有了已声明的集合，我现在就可以使用bulk collect来检索员工信息（第23行至第30行）。这一部分有效地替代了cursor for循环。至此，数
据被加载到集合中。
划分逻辑（第32行至第46行）要求对刚刚填充的集合中的每一行进行检查，看其是否符合加薪条件。如果符合，我就将该员工id从查询填充的
集合复制到符合条件的员工的集合。如果不符合，则复制该员工id、薪金和雇用日期，因为这些都需要插入到employee_history表中。
初始数据现在已被分为两个集合，可以将其分别用作两个不同的forall语句（分别从第51行和第66行开始）的驱动器。我将不合格员工的集合
中的数据批量插入到employee_history（add_to_history）表中，并通过give_the_raise过程，在employee表中批量更新合格员工的信息。
最后再仔细地看一看add_to_history（第48行至第61行），以此来结束对这个重新编写的程序的分析。forall语句（第51行）包含一个in子句
，它指定了要用于批量insert的行号范围。在对程序进行第二次重写的说明中，我将把用于定义范围的集合称为"驱动集合"。但在
add_to_history的这一版本中，我简单地假定：使用在denied_employee_ids中定义的所有行。在insert自身内部，关于不合格员工的三个集
合都会被用到；我将把这些集合称为"数据集合"。可以看到，驱动集合与数据集合无需匹配。在学习oracle数据库10g的新特性时，这是一个关
键点。
结果，清单 2 的行数大约是清单 1行数的2倍，但是清单 2 中的代码会在要求的时间内运行。在使用oracle数据库10g之前，在这种情况下，
我只会对能够在这一时间内运行代码并开始下一个任务这一点感到高兴。
不过，有了oracle数据库10g中最新版的pl/sql，现在我就可以在性能、可读性和代码量方面作出更多的改进。
将values of用于此过程
在oracle数据库10g中，可以指定forall语句使用的驱动集合中的行的子集。可以使用以下两种方法之一来定义该子集：
将数据集合中的行号与驱动集合中的行号进行匹配。你需要使用indices of子句。
将数据集合中的行号与驱动集合中所定义行中找到的值进行匹配。这需要使用values of子句。
在对give_raises_in_department进行第二次和最后一次改写中我将使用values of子句。清单 3 包含这个版本的全部代码。我将略过这一程序
中与前一版本相同的部分。
从声明集合开始，请注意我不再另外定义集合来存放合格的和不合格的员工信息，而是在清单 3 （第17行至第21行）中声明两个"引导"集合：
一个用于符合加薪要求的员工，另一个用于不符合加薪要求的员工。这两个集合的数据类型都是布尔型；不久将会看到，这些集合的数据类型
与forall语句毫无关系。forall语句只关心定义了哪些行。在员工表中拥有50 000行信息的give_raises_in_department的三种执行方法的占
用时间执行方法用时
cursor for循环 00:00:38.01
oracle数据库10g之前的批量处理 00:00:06.09
oracle数据库10g的批量处理 00:00:02.06
在员工表中拥有100,000行数据的give_raises_in_department的三种执行方法的占用时间执行方法用时
cursor for循环 00:00:58.01
oracle数据库10g之前的批量处理 00:00:12.00
oracle数据库10g的批量处理 00:00:05.05
表1：处理50,000行和100,000行数据的用时测试结果
retrieve_employee_info子程序与前面的相同，但是对数据进行划分的方式完全不同（第32行至第44行）。我没有将记录从一个集合复制到另
一个集合（这个操作相对较慢），而只是确定与员工id集合中的行号相匹配的相应引导集合中的行（通过为其指定一个true值）。
现在可以在两个不同forall语句（由第49行和第65行开始）中，将approved_list和denied_list集合用作驱动集合。
为了插入到employee_history表中，我使用了如下语句：
forall indx in values of denied_list
为了进行更新（给员工进行加薪），我使用这一格式：
forall indx in values of approved_list
在这两个dml语句中，数据集合是在bulk collect 检索步骤中填充的最初的集合；没有进行过复制。利用values of，oracle数据库在这些数据
集合的行中进行筛选，仅使用行号与驱动集合中行号相匹配的行
利用本程序中的valuesof，可以避免复制对全部记录进行复制，而是用行号的一个简单列表来替换它们。对于大型数组，进行这些复制的开销
是非常可观的。为了测试oracle数据库10g的优越性，我装入employee表并对50,000行和100,000行的数据运行测试。为了模拟更多的现实情况
，我将oracle数据库10g之前的批量处理的执行方法作了修改以进行集合内容的多次复制。然后我使用sql*plus set timing on来显示运行各个
不同的执行方法所用的时间。表1 给出了结果。
从这些时间测定得到的结论非常清楚：由单个dml语句变为批量处理将大幅缩短耗用时间，，数据为50,000行时的用时由38秒减为6秒，数据为
100,000行时的用时由58秒减为12秒。而且，通过使用values of来避免复制数据，我可以将用时缩短一半左右。
即使没有性能上的改进，valuesof及其同类子句--indicesof也提高了pl/sql语言的灵活性，使开发人员能够更轻松地编写出更直观和更容易
维护的代码。
在产品寿命这一点上，pl/sql是一种成熟且功能强大的语言。因而，其很多新特性都是逐渐增加和改进而成的。不过，这些新特性还是使应用
程序的性能和开发人员的开发效率有了重大改变。values of就是这种特性的一个很好的例子。