在大型MySQL数据库（700万行）中，从另一个表格更新列。

Question

30 浏览2023年7月12日

匿名的 2023年7月12日

0 Comments

描述

我有两个具有以下结构的表（删除了无关的列）：

mysql> explain parts;
+-------------+--------------+------+-----+---------+-------+
| Field       | Type         | Null | Key | Default | Extra |
+-------------+--------------+------+-----+---------+-------+
| code        | varchar(32)  | NO   | PRI | NULL    |       |
| slug        | varchar(255) | YES  |     | NULL    |       |
| title       | varchar(64)  | YES  |     | NULL    |       |
+-------------+--------------+------+-----+---------+-------+
4 rows in set (0.00 sec)

和

mysql> explain details;
+-------------------+--------------+------+-----+---------+-------+
| Field             | Type         | Null | Key | Default | Extra |
+-------------------+--------------+------+-----+---------+-------+
| sku               | varchar(32)  | NO   | PRI | NULL    |       |
| description       | varchar(700) | YES  |     | NULL    |       |
| part_code         | varchar(32)  | NO   | PRI |         |       |
+-------------------+--------------+------+-----+---------+-------+
3 rows in set (0.00 sec)

表parts包含184147行，details包含7278870行。

details表中的part_code列表示parts表中的code列。

由于这些列是varchar类型，我想在parts表中添加id int(11)列，并在details表中添加part_id int(11)列。我尝试了以下操作：

mysql> alter table parts drop primary key;
Query OK, 184147 rows affected (0.66 sec)
Records: 184147  Duplicates: 0  Warnings: 0
mysql> alter table parts add column
       id int(11) not null auto_increment primary key first;
Query OK, 184147 rows affected (0.55 sec)
Records: 184147  Duplicates: 0  Warnings: 0
mysql> select id, code from parts limit 5;
+----+-------------------------+
| id | code                    |
+----+-------------------------+
|  1 | Yhk0KqSMeLcfH1KEfykihQ2 |
|  2 | IMl4iweZdmrBGvSUCtMCJA2 |
|  3 | rAKZUDj1WOnbkX_8S8mNbw2 |
|  4 | rV09rJ3X33-MPiNRcPTAwA2 |
|  5 | LPyIa_M_TOZ8655u1Ls5mA2 |
+----+-------------------------+
5 rows in set (0.00 sec)

现在parts表中有了正确数据的id列。在details表中添加part_id列后：

mysql> alter table details add column part_id int(11) not null after part_code;
Query OK, 7278870 rows affected (1 min 17.74 sec)
Records: 7278870  Duplicates: 0  Warnings: 0

现在的大问题是如何相应地更新part_id？以下查询：

mysql> update details d
       join parts p on d.part_code = p.code
       set d.part_id = p.id;

运行了大约30个小时，直到我终止了它。

请注意，这两个表都是MyISAM类型的：

mysql> select engine from information_schema.tables where table_schema = 'db_name' and (table_name = 'parts' or table_name = 'details');
+--------+
| ENGINE |
+--------+
| MyISAM |
| MyISAM |
+--------+
2 rows in set (0.01 sec)

我刚刚意识到一个问题是在parts表上删除主键时我删除了code列的索引。另一方面，我在details表上有以下索引（省略了一些无关的列）：

mysql> show indexes from details;
+---------+------------+----------+--------------+-------------+-----------+-------------+------------+
| Table   | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Index_type |
+---------+------------+----------+--------------+-------------+-----------+-------------+------------+
| details |          0 | PRIMARY  |            1 | sku         | A         |        NULL | BTREE      |
| details |          0 | PRIMARY  |            3 | part_code   | A         |     7278870 | BTREE      |
+---------+------------+----------+--------------+-------------+-----------+-------------+------------+
2 rows in set (0.00 sec)

我的问题是：

更新查询是否正确，还能进一步优化吗？
我将在parts表的code列上添加索引，查询是否能在合理的时间内运行，还是会再次运行几天？
如何编写（sql/bash/php）脚本，以便查看查询执行的进度？

非常感谢！

0

3 答案

匿名的 · Answer 1 · 2023-07-27T14:05:57+00:00

在处理一个包含700万行数据的大型MySQL数据库时，出现了一个问题，即如何从另一个表中更新某个列。解决这个问题的原因和方法如下：

原因：

问题的根源在于，MySQL在每次更新一行数据时会重新创建索引。对于包含700万行记录的表来说，这个过程并不会非常快速。

解决方法：

为了解决这个问题，可以尝试从正在更新的表中删除索引。这样，MySQL就不会在每次数据更新时重新创建索引，从而提高更新速度。

具体代码如下：


ALTER TABLE table_name DROP INDEX index_name;

需要注意的是，这种方法可能会影响到其他查询操作。因此，在删除索引之前，需要仔细评估系统的需求，并确保没有其他操作会受到影响。

另外，需要注意的是，如果只对某些列进行更新，MySQL不会重新创建其他未更新列的索引。这意味着，如果只更新某个特定的列，可以避免不必要的索引重建，从而提高更新效率。

当处理大型MySQL数据库时，更新某个列的操作可能会导致性能问题。为了提高更新速度，可以尝试删除正在更新的表的索引。同时，只更新需要修改的列，可以避免不必要的索引重建，进一步提高更新效率。

希望这篇文章对解决这个问题有所帮助！

匿名的 · Answer 2 · 2023-08-21T10:46:56+00:00

问题的原因：

这个问题是因为在一个大型的MySQL数据库中，需要从另一个表中更新一列的值。具体来说，需要根据两个表中的关联字段，将一个表中的part_id列的值更新为另一个表中相应行的id值。这个问题的关键在于处理大量的数据，因为数据库中有700万行需要更新。

解决方法：

为了解决这个问题，可以采取以下几个步骤：

1. 使用JOIN语句将两个表连接起来，并设置WHERE条件和LIMIT限制，以便按照指定的数量更新数据。代码如下：

update details d
join parts p on d.part_code = p.code
set d.part_id = p.id
WHERE d.part_id =0
LIMIT 5000;

2. 为了提高性能，可以为表中的关联字段添加索引。这样可以加快查询速度，减少更新所需的时间。

3. 使用循环来重复执行上述的更新语句，直到所有的行都被更新完毕。代码如下：

while(TRUE)
{
    $result = mysql_query($query);
    if(!$result) die('Failed: ' . mysql_error());
    if(mysql_affected_rows() == 0) die('Done');
    echo '.';
}

4. 如果以上方法因为连接的数量问题而出现错误，可以尝试使用子查询来避免多表更新的问题。具体代码如下：

UPDATE details
SET part_id = (SELECT id FROM parts WHERE parts.code = details.part_code)
WHERE part_id = 0
LIMIT 5000;

然而，这种方法在使用LIMIT时会出现错误，因为UPDATE语句不能与LIMIT一起使用。因此，需要使用其他方法来解决这个问题。

通过以上的解决方法，我们可以在大型MySQL数据库中成功更新一个表的列值。通过使用JOIN语句、添加索引、循环执行更新语句和使用子查询等方法，可以提高更新的效率和准确性。这些方法可以帮助我们处理大量数据的更新操作，并提高数据库的性能。

匿名的 · Answer 3 · 2023-09-25T19:23:51+00:00

问题出现的原因：在进行更新操作时，忘记了在“parts”表上删除的索引，导致更新操作效率低下。

解决方法：首先重新添加索引到“parts”表中。然后在“details”表中添加一个新的列来限制查询。最后使用PHP脚本进行更新操作，使用限制条件“LIMIT”来限制更新的行数。

具体解决方法如下：

1. 添加索引到“parts”表：

alter table parts add key code (code);

2. 在“details”表中添加新列来限制查询：

# 删除主键
alter table details drop primary key;
# 添加自增列
alter table details add id int not null auto_increment primary key;
# 修改id列并移除自增
alter table details change id id int not null;
# 再次删除主键
alter table details drop primary key;
# 添加新索引
alter table details add primary key (id, sku, num, part_code);

3. 使用PHP脚本进行更新操作，并使用“LIMIT”限制更新的行数：

$started = time();
$i = 0;
$total = 7278870;
echo "Started at " . date('H:i:s', $started) . PHP_EOL;
function timef($s){
    $h = round($s / 3600);
    $h = str_pad($h, 2, '0', STR_PAD_LEFT);
    $s = $s % 3600;
    $m = round( $s / 60);
    $m = str_pad($m, 2, '0', STR_PAD_LEFT);
    $s = $s % 60;
    $s = str_pad($s, 2, '0', STR_PAD_LEFT);
    return "$h:$m:$s";
}
while (1){
    $i++;
    $j = $i * 5000;
    $k = $j + 4999;
    $result = mysql_query("
        update details d
        join parts p on d.part_code = p.code
        set d.part_id = p.id
        where d.id between $j and $k
    ");
    if(!$result) die(mysql_error());
    if(mysql_affected_rows() == 0) die(PHP_EOL . 'Done!');
    $p = round(($i * 5000) / $total, 4) * 100;
    $s = time() - $started;
    $ela = timef($s);
    $eta = timef((( $s / $p ) * 100) - $s );
    $eq = floor($p/10);
    $show_gt = ($p == 100);
    $spaces = $show_gt ? 9 - $eq : 10 - $eq;
    echo "\r {$p}% | [" . str_repeat('=', $eq) . ( $show_gt ? '' : '>') . str_repeat(' ', $spaces) . "] | Elapsed: ${ela} | ETA: ${eta}";
}

最后，使用终端截图展示了脚本运行的情况。

通过以上操作，整个更新过程只花费了不到5分钟的时间。感谢大家的帮助！