在大型MySQL数据库(700万行)中,从另一个表格更新列。
在大型MySQL数据库(700万行)中,从另一个表格更新列。
描述
我有两个具有以下结构的表(删除了无关的列):
mysql> explain parts; +-------------+--------------+------+-----+---------+-------+ | Field | Type | Null | Key | Default | Extra | +-------------+--------------+------+-----+---------+-------+ | code | varchar(32) | NO | PRI | NULL | | | slug | varchar(255) | YES | | NULL | | | title | varchar(64) | YES | | NULL | | +-------------+--------------+------+-----+---------+-------+ 4 rows in set (0.00 sec)
和
mysql> explain details; +-------------------+--------------+------+-----+---------+-------+ | Field | Type | Null | Key | Default | Extra | +-------------------+--------------+------+-----+---------+-------+ | sku | varchar(32) | NO | PRI | NULL | | | description | varchar(700) | YES | | NULL | | | part_code | varchar(32) | NO | PRI | | | +-------------------+--------------+------+-----+---------+-------+ 3 rows in set (0.00 sec)
表parts
包含184147行,details
包含7278870行。
details
表中的part_code
列表示parts
表中的code
列。
由于这些列是varchar
类型,我想在parts
表中添加id int(11)
列,并在details
表中添加part_id int(11)
列。我尝试了以下操作:
mysql> alter table parts drop primary key; Query OK, 184147 rows affected (0.66 sec) Records: 184147 Duplicates: 0 Warnings: 0 mysql> alter table parts add column id int(11) not null auto_increment primary key first; Query OK, 184147 rows affected (0.55 sec) Records: 184147 Duplicates: 0 Warnings: 0 mysql> select id, code from parts limit 5; +----+-------------------------+ | id | code | +----+-------------------------+ | 1 | Yhk0KqSMeLcfH1KEfykihQ2 | | 2 | IMl4iweZdmrBGvSUCtMCJA2 | | 3 | rAKZUDj1WOnbkX_8S8mNbw2 | | 4 | rV09rJ3X33-MPiNRcPTAwA2 | | 5 | LPyIa_M_TOZ8655u1Ls5mA2 | +----+-------------------------+ 5 rows in set (0.00 sec)
现在parts
表中有了正确数据的id
列。在details
表中添加part_id
列后:
mysql> alter table details add column part_id int(11) not null after part_code; Query OK, 7278870 rows affected (1 min 17.74 sec) Records: 7278870 Duplicates: 0 Warnings: 0
现在的大问题是如何相应地更新part_id
?以下查询:
mysql> update details d join parts p on d.part_code = p.code set d.part_id = p.id;
运行了大约30个小时,直到我终止了它。
请注意,这两个表都是MyISAM类型的:
mysql> select engine from information_schema.tables where table_schema = 'db_name' and (table_name = 'parts' or table_name = 'details'); +--------+ | ENGINE | +--------+ | MyISAM | | MyISAM | +--------+ 2 rows in set (0.01 sec)
我刚刚意识到一个问题是在parts
表上删除主键时我删除了code
列的索引。另一方面,我在details
表上有以下索引(省略了一些无关的列):
mysql> show indexes from details; +---------+------------+----------+--------------+-------------+-----------+-------------+------------+ | Table | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Index_type | +---------+------------+----------+--------------+-------------+-----------+-------------+------------+ | details | 0 | PRIMARY | 1 | sku | A | NULL | BTREE | | details | 0 | PRIMARY | 3 | part_code | A | 7278870 | BTREE | +---------+------------+----------+--------------+-------------+-----------+-------------+------------+ 2 rows in set (0.00 sec)
我的问题是:
- 更新查询是否正确,还能进一步优化吗?
- 我将在
parts
表的code
列上添加索引,查询是否能在合理的时间内运行,还是会再次运行几天? - 如何编写(sql/bash/php)脚本,以便查看查询执行的进度?
非常感谢!
在处理一个包含700万行数据的大型MySQL数据库时,出现了一个问题,即如何从另一个表中更新某个列。解决这个问题的原因和方法如下:
原因:
问题的根源在于,MySQL在每次更新一行数据时会重新创建索引。对于包含700万行记录的表来说,这个过程并不会非常快速。
解决方法:
为了解决这个问题,可以尝试从正在更新的表中删除索引。这样,MySQL就不会在每次数据更新时重新创建索引,从而提高更新速度。
具体代码如下:
ALTER TABLE table_name DROP INDEX index_name;
需要注意的是,这种方法可能会影响到其他查询操作。因此,在删除索引之前,需要仔细评估系统的需求,并确保没有其他操作会受到影响。
另外,需要注意的是,如果只对某些列进行更新,MySQL不会重新创建其他未更新列的索引。这意味着,如果只更新某个特定的列,可以避免不必要的索引重建,从而提高更新效率。
当处理大型MySQL数据库时,更新某个列的操作可能会导致性能问题。为了提高更新速度,可以尝试删除正在更新的表的索引。同时,只更新需要修改的列,可以避免不必要的索引重建,进一步提高更新效率。
希望这篇文章对解决这个问题有所帮助!
问题的原因:
这个问题是因为在一个大型的MySQL数据库中,需要从另一个表中更新一列的值。具体来说,需要根据两个表中的关联字段,将一个表中的part_id列的值更新为另一个表中相应行的id值。这个问题的关键在于处理大量的数据,因为数据库中有700万行需要更新。
解决方法:
为了解决这个问题,可以采取以下几个步骤:
1. 使用JOIN语句将两个表连接起来,并设置WHERE条件和LIMIT限制,以便按照指定的数量更新数据。代码如下:
update details d join parts p on d.part_code = p.code set d.part_id = p.id WHERE d.part_id =0 LIMIT 5000;
2. 为了提高性能,可以为表中的关联字段添加索引。这样可以加快查询速度,减少更新所需的时间。
3. 使用循环来重复执行上述的更新语句,直到所有的行都被更新完毕。代码如下:
while(TRUE) { $result = mysql_query($query); if(!$result) die('Failed: ' . mysql_error()); if(mysql_affected_rows() == 0) die('Done'); echo '.'; }
4. 如果以上方法因为连接的数量问题而出现错误,可以尝试使用子查询来避免多表更新的问题。具体代码如下:
UPDATE details SET part_id = (SELECT id FROM parts WHERE parts.code = details.part_code) WHERE part_id = 0 LIMIT 5000;
然而,这种方法在使用LIMIT时会出现错误,因为UPDATE语句不能与LIMIT一起使用。因此,需要使用其他方法来解决这个问题。
通过以上的解决方法,我们可以在大型MySQL数据库中成功更新一个表的列值。通过使用JOIN语句、添加索引、循环执行更新语句和使用子查询等方法,可以提高更新的效率和准确性。这些方法可以帮助我们处理大量数据的更新操作,并提高数据库的性能。
问题出现的原因:在进行更新操作时,忘记了在“parts”表上删除的索引,导致更新操作效率低下。
解决方法:首先重新添加索引到“parts”表中。然后在“details”表中添加一个新的列来限制查询。最后使用PHP脚本进行更新操作,使用限制条件“LIMIT”来限制更新的行数。
具体解决方法如下:
1. 添加索引到“parts”表:
alter table parts add key code (code);
2. 在“details”表中添加新列来限制查询:
# 删除主键 alter table details drop primary key; # 添加自增列 alter table details add id int not null auto_increment primary key; # 修改id列并移除自增 alter table details change id id int not null; # 再次删除主键 alter table details drop primary key; # 添加新索引 alter table details add primary key (id, sku, num, part_code);
3. 使用PHP脚本进行更新操作,并使用“LIMIT”限制更新的行数:
$started = time(); $i = 0; $total = 7278870; echo "Started at " . date('H:i:s', $started) . PHP_EOL; function timef($s){ $h = round($s / 3600); $h = str_pad($h, 2, '0', STR_PAD_LEFT); $s = $s % 3600; $m = round( $s / 60); $m = str_pad($m, 2, '0', STR_PAD_LEFT); $s = $s % 60; $s = str_pad($s, 2, '0', STR_PAD_LEFT); return "$h:$m:$s"; } while (1){ $i++; $j = $i * 5000; $k = $j + 4999; $result = mysql_query(" update details d join parts p on d.part_code = p.code set d.part_id = p.id where d.id between $j and $k "); if(!$result) die(mysql_error()); if(mysql_affected_rows() == 0) die(PHP_EOL . 'Done!'); $p = round(($i * 5000) / $total, 4) * 100; $s = time() - $started; $ela = timef($s); $eta = timef((( $s / $p ) * 100) - $s ); $eq = floor($p/10); $show_gt = ($p == 100); $spaces = $show_gt ? 9 - $eq : 10 - $eq; echo "\r {$p}% | [" . str_repeat('=', $eq) . ( $show_gt ? '' : '>') . str_repeat(' ', $spaces) . "] | Elapsed: ${ela} | ETA: ${eta}"; }
最后,使用终端截图展示了脚本运行的情况。
通过以上操作,整个更新过程只花费了不到5分钟的时间。感谢大家的帮助!