临时文件和临时表

roamer · 2023 年10 月 18 日 01:46

通过本文的学习，您将能够：

了解什么是数据库服务器创建的临时对象
设定临时对象相关的配置参数和环境变量
了解使用多个临时数据空间(dbspace)的重要性
了解创建临时表格时使用WITH NO LOG 子句的目的
使用onstat 和 SMI 监控创建临时对象所用到的空间

1. 临时对象类型

动态服务器使用两种临时对象存储临时数据：临时文件和临时表。

在以下情况下会创建临时文件：

SELECT 语句中使用 ORDER BY 或 GROUP BY 子句，但没有合适的索引可以对结果进行排序。
SELECT 语句中使用 UNIQUE 或 DISTINCT 来消除重复值。
SELECT语句中使用排序归并联接两个表，而没有索引可以使用。
哈希联接必须创建哈希表，但共享内存空间不足。
建立索引时需要对键值进行排序。
在热恢复期间，逻辑日志文件会先放到临时文件。

在以下情况下会创建临时表：

隐性的——SELECT 语句中使用 INTO TEMP 子句。
显性的——使用 CREATE TEMP TABLE 语句。
从应用进程传递二进制大对象到存储过程中，或者有全局二进制大对象全局变量被赋值。

2. 临时对象配置

对于临时表，以下优先顺序适用：

DBSPACETEMP 环境变量
DBSPACETEMP 配置参数
root dbspace或者创建数据库所在的dbspace

对于临时文件，以下优先顺序适用：

PSORT_DBTEMP 环境变量
DBSPACETEMP 环境变量
DBSPACETEMP 配置参数
/tmp

服务器中的临时表可以自动生成至 dbspace中。 DBSPACETEMP 环境变量可以设置一个或多个dbspace。如果没有设置 DBSPACETEMP 环境变量，服务器会使用 DBSPACETEMP 配置参数。临时表会在这些环境变量或配置参数指定的dbspace中分段生成。无论查询是否为 PDQ 查询，这种情况都会发生。

如果没有指定 DBSPACETEMP，临时表将放置于root dbspace 或创建数据库所在的 dbspace 中。

SELECT …INTO TEMP 语句将临时表放在root dbspace 中。
CREATE TEMP TABLE 语句将临时表放在创建数据库所在的 dbspace 中。

临时文件可以创建在 dbspace 或文件系统空间。如果PSORT_DBTEMP被设置成一个或者多个目录，无论是否为并行排序，将在所有列出的目录中以循环方式创建临时文件（第一个文件在一个目录中，第二个文件在下一个目录中）。

如果没有设置 PSORT_DBTEMP 环境变量，临时文件将分段分布在 DBSPACETEMP 环境变量列出的 dbspace 中。这意味着无论查询是否为 PDQ 查询，所有这些 dbspace的空间都会被这单一临时文件所分配和利用。如果没有设置 DBSPACETEMP 环境变量，DBSPACETEMP 配置参数中列出的 dbspace 将用于存储临时文件。如果环境变量和配置参数都没有设置，则临时文件存储于 /tmp 目录中。

指定的 dbspace 或文件系统目录必须有足够的磁盘空间存储临时表或临时文件。如果磁盘空间不足，操作将会失败。

3. DBSPACETEMP 和日志

$ export DBSPACETEMP=dbs1,dbs2

与带有日志的数据库一起使用：
临时表tp1 会创建在rootdbs：
SELECT number FROM account INTO TEMP tp1
临时表tp2 会在dbs1 和dbs2 中片段式分布。
SELECT number FROM account INTO TEMP tp2 WITH NO LOG

建议您在服务器实例的不同设备中创建多个临时 dbspace。由于临时 dbspace 不需要日志记录也无需备份，所以会对性能有所帮助。同时，当临时文件和表创建时，会以分段形式分布于可用的临时 dbspace 中，因此能够以并行方式访问。

如果数据库是无日志模式而且DBSPACETEMP有设置，则临时表会自动创建在 DBSPACETEMP 指定的空间中。在有日志模式的数据库中，默认临时表也将被记录日志，并且不会创建在 DBSPACETEMP 指定的空间中。为了能使用 DBSPACETEMP 特点，需要在 SELECT语句、INTO TEMP 语句或 CREATE TEMP TABLE 语句中加上with no log。

上例中显示如何设置 DBSPACETEMP 环境变量。在客户端应用程序启动前，将环境变量 DBSPACETEMP设置一个或者多个dbspace。这些 dbspace 必须是您所连接的数据库服务器的一部分。如果配置参数 DBSPACETEMP被设置成为dbs1和dbs2，则不需要环境变量。

4. 并行排序

在以下情况下，若有需要，数据库服务器以并行方式对数据进行排序:

ORDER BY

如果一个 SELECT 语句中有一个 ORDER BY 子句，而又无法利用现有的索引，那么排序包会按照 ORDER BY 子句指定的字段的顺序对查询结果进行排序。

GROUP BY

和 ORDER BY 子句一样， SELECT 语句的结果按照 GROUP BY 子句指定的字段顺序进行排序。

索引创建

CREATE INDEX 语句中在键值插入索引之前会将键值进行排序。
如果数据集比较大，会有些磁盘I/O发生。然而，如果数据集小，排序完全可以在内存中完成，这样小数据集的排序就会更快。

5. PSORT_NPROCS

PSORT_NPROCS 环境变量设置了会话所用的排序线程数量。
1697600151507

当需要排序时，排序线程负责从共享内存页面中读取数据，并将数据行放置在位于服务器共享内存虚拟部分中的排序缓冲区里。如果需要的排序空间很大，排序线程会将数据行写入磁盘上的临时文件。

PSORT_NPROCS 环境变量设置会话在需要排序时使用的排序线程数。环境变量根据客户端应用程序的启动位置进行设置的。如果 PSORT_NPROCS 设置为 0, 代表使用系统默认值 (当前默认值为 2)。

PSORT_DBTEMP

排序文件会被创建在 dbspaces 或文件系统空间。如果 PSORT_DBTEMP 被设置为一个或多个目录, 那么临时文件会被以循环的方式生成在列出的各个目录中（无论排序是否为并行排序）。

DBSPACETEMP

如果未设置 PSORT_DBTEMP 环境变量，那么 DBSPACETEMP 环境变量中列出的 dbspaces 会用于以分段方式存储临时文件。

如果未设置 DBSPACETEMP 环境变量，那么就会使用跟 DBSPACETEMP 配置参数所设置的 dbspaces 列表。

/tmp

如果环境变量和配置参数都没设置，临时文件会被存储在 /tmp 目录中。

排序和PDQ

如果 PSORT_NPROCS 的值大于1，不管 PDQPRIORITY 如何设置，排序都将按照并行方式执行。然而，PDQPRIORITY 的值大于0时，对并行排序会有显著的帮助，因为可以为排序分配更多的内存以及额外的扫描线程。

配置指南

当运行 PDQ 查询时，建议将 PSORT_NPROCS 的初始值设置为2。然后观察 I/O 和 CPU 活动。如果 CPU 活动要比 I/O 活动慢，您可以增加 PSORT_NPROCS 的数值，最多可到10。然而设置超过2而性能得以提升的情形非常少。

3. 并行索引建立

服务器使用一种叫做并行索引 创建的方式来建立索引。B+ 树通过两个或更多的线程以并行方式建立。每个线程创建一个子树，然后子树合并在一起变成最终的 B+ 树。

为了运行一个并行索引构建，服务器会采样将近1000个行的数据来决定如何将若干键值拆分成单独的数据桶。下一步，服务器会扫描数据行，并用并行排序机制对键值进行排序。排好序的键会被放入适当的数据桶中，这些数据桶随后再被附加到索引子树。例如，如果键值是一个整数，采样机制可以决定 1 到 4000 的键值存放于 1 号数据桶中，4001 到 8000 的键存放于 2 号数据桶中。会有一个附加器(appender) 线程用1号数据桶里的键值创建一个子树。另一个附加器线程用2号数据桶里的键值创建另一个子树。因为键值是被分别独立排序好的，一旦创建了子树，就可以很容易再将子树合并成为最终的 B+ 树。

子树创建进程通过排序而得以加速。因为所有的键都是排好序的，叶子节点无需访问整个树的结构就可以建立。

CREATE INDEX 语句不是唯一会启动索引创建的语句。增加一个唯一键、主键，或引用约束，或启用这些约束都可导致索引的创建。这些也是并行的。服务器不会对少于 100 页的表进行并行索引创建。

索引创建和 PDQ

不管 PDQPRIORITY 如何设置，索引创建都会以并行方式进行。但是，如果将 PDQPRIORITY 设置为大于 0，对于索引创建在性能上会有相当大的帮助。PDQPRIORITY 用来决定可以用于索引创建的排序部分的最大内存使用量，以及扫描线程的最大数量。

索引创建和 PSORT_NPROCS

不管PDQPRIORITY如何设置，索引创建都会以并行方式进行。PSORT_NPROCS 的值决定每个 btappender 线程启动多少个排序线程。如果 PSORT_NPROCS 没有设置，就会使用默认值 2。

3.1 并行索引创建线程

在并行索引创建过程中，可以看到几组不同的线程在执行创建索引的工作。

扫描线程从共享内存页面读取数据行以提取键值。如果共享内存中没有需要的页面，扫描线程会向 AIO VP 发送请求从磁盘读取页面。扫描线程决定将键值放入哪个数据桶，并传给负责排序线程进行排序。
排序线程将键值排序。
btappender 线程创建索引子树。
最终，sqlexec 线程将子树连结在一启成为一棵 btree 。

扫描和排序线程必须先完成各自的工作，之后btappender线程才能开始创建索引子树。

3.2 有多少个索引创建线程

索引创建线程的数目取决于下列因素：

扫描线程：存储表的 dbspace中的每 chunk 都会被自动分配一个扫描线程。
排序线程：如果 PSORT_NPROCS 被设置为 x，排序线程的数量会被设置为x。如果 PSORT_NPROCS 未设置，排序线程的数默认为2。
Btappender 线程：自动设置为1 到 6 个线程。取决于服务器预期索引所需要的页面数，btappender 线程可设置为从 1 到 6 不等。下表说明了被分配的页面和相应的 btappender数目之间的大致对照。

1697610582253

例如，如果在一个 4 字节的字段上创建一个索引，小于100,000 键值用一个 btappender ， 1 百万个键值以下使用两个 btappender， 1 千万个键值以下使用 3 个 btappender， 5 千万个键值以下使用 4 个 btappender， 2.5 亿个键值以下使用 5 个 btappender，超过 2.5 亿个键使用 6 个 btappender。这例子是假设索引页被完全填充。

这里的讨论是假设使用的是一个大型的多处理器系统。实际上，服务器不允许 btappender 线程的数目超过 CPU VP 加一的数量。

3.3 索引填充因子

可以设置索引创建中每个索引页被填充的百分比，这个因子可以使用SQL 语句或onconfig 参数来设置。

配置参数：
FILLFACTOR 90
SQL 语句：

create index zip_code_idx on customer(zip_code) fillfactor 70;

索引填充因子是索引创建中每个索引页被填充的百分比。该百分比可用 CREATE INDEX 语句来设定。如果 CREATE INDEX 语句没有明确指定该百分比，默认值就等于配置参数 FILLFACTOR 里指定的值。如果填充因子没有在SQL语句指定，也没有在onconfig中指定，则默认的填充因子为 90%。

如果预期索引建立后不会有很多新数据插入表中，那么在创建索引时可以将 FILLFACTOR 设置得高一些。如果预期索引建立后表中会插入大量数据，那么可以设置FILLFACTOR 为默认值或将其设置的低一些。但如果 FILLFACTOR 设置过低，会有降低缓存命中率的风险，而且会造成索引所需的磁盘空间增加。

填充因子在索引生命周期内不会被应用。只有当索引创建时填充因子才被应用。