如何从理论上避免这类并行任务交错执行时的冲突问题

2023-01-11 02:55:18 +08:00
 h0099

假设有一个进程,其内部有一个全局的锁和两个(或多个)互相不知道对方存在的异步任务正在运行

和一个外部数据库中的某个表,假设表只有一个字段并且是UNIQUE约束。数据库每SESSION的隔离级别是READ COMMITTED

任务的目的是向表中插入一些行

  1. 但会先查询表中已有行(此时有START TRANSACTION),然后排除掉表中已有的
  2. 再向进程范围的全局锁声明占用了即将插入的已排除了表中已有行的行
  3. 然后向表插入这些行,在COMMIT表明成功插入后
  4. 再去进程全局锁释放此前占有的行

因此当存在两个并行执行的这个任务时可能有符合如下 uml 时序图的流程:

线程 1->数据库: 读取已有行
数据库->+线程 1:
进程锁->线程 1: 已被锁的行
线程 1->进程锁: 锁新插入行
    线程 2->数据库: 读取已有行
    数据库->+线程 2:
    进程锁->线程 2: 已被锁的行
    线程 2->进程锁: 锁新插入行
线程 1->-数据库: 插入未被锁的行
线程 1->进程锁: 释放新插入行锁
    线程 2->-数据库: 插入未被锁的行
note right of 数据库: DUPLICATED
    线程 2->进程锁: 释放新插入行锁

利用 https://www.websequencediagrams.com 在线渲染:

DUPLICATED表示线程 2试图插入已经被线程 1插入了的行,因此违反了数据库层的UNIQUE约束

对上图填充实际数据后

线程 1->数据库: 读取已有行\nSTART TRANSACTION\nSELECT * FROM t
数据库->+线程 1: 0 row returned
进程锁->线程 1: 已被锁的行\n0 行
线程 1->进程锁: 锁新插入行\n1 行:a
    线程 2->数据库: 读取已有行\nSTART TRANSACTION\nSELECT * FROM t
    数据库->+线程 2: 0 row returned
线程 1->-数据库: 插入未被锁的行\nINSERT INTO t\nVALUES ('a');\nCOMMIT;
线程 1->进程锁: 释放新插入行锁\n0 行
    进程锁->线程 2: 已被锁的行\n0 行
    线程 2->进程锁: 锁新插入行\n1 行:a
    线程 2->-数据库: 插入未被锁的行\nINSERT INTO t\nVALUES ('a');\nCOMMIT;
note right of 数据库: #1062\nDuplicate entry 'a'
    线程 2->进程锁: 释放新插入行锁\n0 行

可以看出在符合这个时序图的流程中进程锁和数据库层事务都无法阻止这种冲突,因为

  1. 线程 2访问数据库表中已有行的时机早于线程 1``COMMIT他的INSERT,所以线程 2无法预见线程 1将在未来插入行a(由于READ COMMITED事务隔离级别)
  2. 线程 2访问进程锁的时机又晚于线程 1完成COMMIT和释放进程锁中的行a,所以线程 2也不知道此前线程 1已经插入了行a

提出的解决方法:

1.延后线程 2查询数据库的时机:

如果让线程 1等待线程 2释放了进程锁之后才开始查询表,那么线程 1就可以从表中得知行a此前已经被插入了(但线程 1并不知道这是线程 2插入的)

这实际上就是serializabilitylinearizabilityserializability的区别),即完全放弃了并行度,同一时间只能有一个任务在工作。这也意味着进程锁此时也是完全无用的,因为他的主要目的是让其他线程知道当前有哪些行即将插入表(但还没有COMMIT

2.延后线程 1释放进程锁的时机:

如果让线程 1等待线程 2查询进程锁之后再去释放锁,那么线程 2就可以知道不应该插入行a

缺点:

3.数据库事务隔离级别从READ COMMITED降至READ UNCOMMITED

回顾经典之

可见降至READ UNCOMMITED后允许dirty read的发生,也就是对于如下时序:

线程 2可以在线程 1已经向数据库发送了INSERT,但还没发送COMMIT从而提交事务之前就得知行 a已经被插入了

缺点: 对于最初的时序流程

仍然不适用,因为没有任何约束使得线程 2不能在线程 1向数据库发送INSERT之前就查询表,自然也就没有发生dirty read

4.缓存最近插入的行的进程范围全局FIFO stack

线程 1->数据库: 读取已有行\nSTART TRANSACTION\nSELECT * FROM t
数据库->+线程 1: 0 row returned
进程锁->线程 1: 已被锁的行\n0 行
FIFO->线程 1: 最近插入的行\n0 行
线程 1->进程锁: 锁新插入行\n1 行:a
    线程 2->数据库: 读取已有行\nSTART TRANSACTION\nSELECT * FROM t
    数据库->+线程 2: 0 row returned
线程 1->-数据库: 插入未被锁的行\nINSERT INTO t\nVALUES ('a');\nCOMMIT;
线程 1->FIFO: 追加最近插入的行\na
线程 1->进程锁: 释放新插入行锁\n0 行
    进程锁->线程 2: 已被锁的行\n0 行
    FIFO->线程 2: 最近插入的行\n1 行:a
    线程 2->进程锁: 锁新插入行\n1 行:b
    线程 2->-数据库: 插入未被锁的行\nINSERT INTO t\nVALUES ('b');\nCOMMIT;
    线程 2->FIFO: 追加最近插入的行\na
    线程 2->进程锁: 释放新插入行锁\n0 行

如果线程 1保证在释放进程锁的行 a之前先将其 push ,那么线程 2就可以在 pop 时发现行 a已经被插入,尽管这时进程锁中表明行 a没有被锁(即正准备插入但尚未COMMIT

缺点:

5.2PC (两阶段提交)2PL (两阶段锁)以协调任务

6.外部程序控制锁以协调任务,如各类 message queue 或 zookeeper

由于我对分布式 /并行计算理论不甚了解,所以希望 V2EX 的各位 v 友们能够补充更多理论上以及实践中如何处理这类问题的方案

2697 次点击
所在节点    程序员
32 条回复
h0099
2023-01-11 03:07:21 +08:00
codehz
2023-01-11 09:28:51 +08:00
我来捋一捋,这一大段先查询再插入的目的是防止重复的插入?有没有一种可能用 INSERT ON DUPLICATE 来解决呢?直接忽略重复插入的冲突有影响吗
h0099
2023-01-11 13:31:43 +08:00
#2 @codehz 并不需要`INSERT INTO ... ON DUPLICATE KEY UPDATE`( PGSQL 又称`UPSERT`)因为这是仅插入而没有更新或删除(即 CRUD 只有 C )
也可以直接`INSERT IGNORE`: https://dev.mysql.com/doc/refman/8.0/en/insert.html
> If you use the IGNORE modifier, ignorable errors that occur while executing the INSERT statement are ignored. For example, without IGNORE, a row that duplicates an existing UNIQUE index or PRIMARY KEY value in the table causes a duplicate-key error and the statement is aborted. With IGNORE, the row is discarded and no error occurs. Ignored errors generate warnings instead.

然后在每次`INSERT`后[`SELECT ROW_COUNT`]( https://dev.mysql.com/doc/refman/8.0/en/information-functions.html#function_row-count)就可以知道少了多少行没有被插入(由于 DUPLICATE 或其他错误)(但只有行的数量,而非精确的对应关系,如果需要知道具体少插入了哪些行仍然需要`SELECT`之前插入的行范围)

但不论 UPSERT 还是 IGNORE 都是从数据库层面缓解问题,他不是保证永不发生 DUPLICATE 错误,而是保证发生 DUPLICATE 错误后您的程序也能跑(因为一个改成了 UPDATE ,一个将 ERR 降级到 WARN )

而我更需要避免的是这种类似 DUPLICATE 造成了数据冗余,但又完全符合数据库层的 UNIQUE 约束的问题:

可以看到两个线程都插入了“完全一致”的行,除了 time 字段值分别是 1674453494 和 1674453492 (因此两者 INSERT 时都不会触发 DUPLICATE 错误)
而这是因为右侧线程在左侧线程于`12:39:54.874436`时间`COMMIT`之前就已经`SELECT`了,所以右侧不知道左侧即将`INSERT` time 为 1674453492 的“重复”行

对此问题我当然可以选择写一个基于[window function]( https://learnsql.com/blog/sql-window-functions-cheat-sheet/)的`DELECT`的后台 crontab (或是线程每次`INSERT`后都尝试`DELETE`一次)来定期执行删除这类冗余的“重复”行
但这跟`UPSERT/INSERT IGNORE`类似仍然是缓解问题而不是解决问题
而且`DELETE`作为事(`INSERT`)后补救也不可能解决更罕见(线程在同一秒内完成所有任务)的两个线程插入的所有字段都相同(也就是触发 DUPLICATE 错误)的场景
codehz
2023-01-11 14:09:44 +08:00
我记得可以 on duplicate update key=key 这样来忽略 duplicate 而且不修改数据(返回 0 行修改)
h0099
2023-01-11 14:13:30 +08:00
原地 UPDATE 为原值跟 INSERT IGNORE 是类似的
只不过完全静默了 WARN (而 INSERT IGNORE 是将 DUPLICATE ERR 降至 WARN )
h0099
2023-01-11 17:34:04 +08:00
> 但不论 UPSERT 还是 IGNORE 都是从数据库层面缓解问题,他不是保证永不发生 DUPLICATE 错误

如果要从数据库层面解决可以尝试
7.`SELECT ... FOR UPDATE`语法所产生的`插入意向排他锁`
---

线程 1 和 2 每次 SELECT 时都通过 WHERE 子句(只取 field=a 的行)缩小了`FOR UPDATE`所造成的[IX 锁]( https://dev.mysql.com/doc/refman/8.0/en/glossary.html#glos_intention_exclusive_lock)的范围(不然没有 WHERE 我怀疑会锁全表,也就是类似于[`LOCK TABLES ... WRITE`]( https://dev.mysql.com/doc/refman/8.0/en/lock-tables.html))
线程 2 在执行后必须无限期(直到达到[innodb_lock_wait_timeout]( https://dev.mysql.com/doc/refman/8.0/en/innodb-parameters.html#sysvar_innodb_lock_wait_timeout))等待线程 1`COMMIT`,因为线程 2 想要 SELECT 的行`field=a`已于此前被线程 1 设置 IX 锁
不难看出此时进程范围的全局锁(进程锁)已经没有存在的必要了,因为他的目的跟 IX 锁是类似的(但他无法目前像 IX 锁那样无限期阻塞任何试图读取进程锁的线程)
实际上 IX 锁同样降低了并行度,因为这跟原文中提出的`1.延后线程 2 查询数据库的时机`是类似的目的:
都是将任何试图读取某些行(`IX 锁`是 field=a 的行,`1.延后线程 2`是所有行,也就是回到了`LOCK TABLES`)的线程挂起直至正在写入某些行的其他线程`COMMIT`
也就是说两者都是试图通过[serialize]( https://en.wikipedia.org/wiki/Serializability)最开始读行的过程从而避免后续`INSERT`时冲突

https://dev.mysql.com/doc/refman/8.0/en/innodb-locking.html#innodb-intention-locks
https://dev.mysql.com/doc/refman/8.0/en/innodb-locking.html#innodb-insert-intention-locks
https://dev.mysql.com/doc/refman/8.0/en/innodb-locking-reads.html
https://stackoverflow.com/questions/21261213/select-for-update-with-insert-into
https://stackoverflow.com/questions/10935850/when-to-use-select-for-update

但人生自古谁无死,不幸地,截止 2022 年 11 月发布的最新版本`EFCore 7`,我所使用的.NET 企业级 ORM `Entity Framework Core`中仍未引入任何原生的 IQueryable<T> linq2sql operator 使得其可以被翻译为追加在`SELECT`末尾的`FOR UPDATE`: https://github.com/dotnet/efcore/issues/26042#issuecomment-993534289
目前能用的变通只有额外查询 rawsql 来表示 IX 锁(而不能直接嵌入已有的 linq2sql 中): https://stackoverflow.com/questions/37984312/how-to-implement-select-for-update-in-ef-core
daxiguaya
2023-01-17 11:48:23 +08:00
1. 图 1 中的"进程锁"清理数据的时机可以调整下,等到没有任何活跃事务的情况下再把它清掉.

2. 图 1 的设计中向"进程锁"插入数据的时机看起来有问题: 如果"线程 1"锁定完后(数据 A)事务处理失败了,那么"线程 2"存在也忽略掉(数据 A). 时机是"线程 1"-"锁新插入行"后,""释放新插入行锁""之前"线程 2"获取"已被锁的行".

PS: 这些是基于单体服务的设计. 我不喜欢用`SELECT ... FOR UPDATE`,它通常会让我其它功能查询也被无辜的阻塞
h0099
2023-01-18 00:10:18 +08:00
1. 那会在有许多线程并行执行事务时造成“饥饿”( starvation ),因为靠后创建的线程获取不到任何没被锁的行导致其无事可做
2. 如果事务执行失败或者发生其他异常了也会释放锁( try finally )。而且为了保险我还加了锁超时,其他线程获取锁时会忽略已经连续锁了 5 分钟的行(数据库不会真卡到 INSERT 一些行都卡上几分钟吧)

> 这些是基于单体服务的设计

哪怕再怎么分布式(实际上同一个进程里的多线程也已经是分布式了所以才会有这些并行竞争问题),不论是无主还是有主的分布式网络,最终都得往一个单点(接受 INSERT 写操作的单主数据库网络)上竞争资源(插入什么行),那这就需要协调来避免竟态(同时插入导致表里存了重复行,但这会被数据库本身的 UNIQUE 约束给拦截所以导致各个线程收到 duplicate entry 错误,但我又不希望某个线程只是因为插入的一大批行中有一些已经存在了就导致整个事务回滚),除非能让分布式数据库也变成多主网络( apache hadoop 那样),那每个任务节点就可以只向固定的数据库节点 INSERT (但仍然需要在接受 INSERT 写操作的所有数据库节点之间不断同步数据从而保证不会有相同 key 但 value 却不同的记录,也就是保证数据一致性)

> 我不喜欢用`SELECT ... FOR UPDATE`,它通常会让我其它功能查询也被无辜的阻塞

根据 https://dev.mysql.com/doc/refman/8.0/en/innodb-locking.html#innodb-intention-locks 的那张表格
事务 A 中的`SELECT ... FOR UPDATE`所产生的 IX 锁(有意排他锁)的确会导致事务 B 的普通的`SELECT`所产生的 S 锁(非有意共享锁)被挂起并一直等待 IX 锁释放(直到`innodb_lock_wait_timeout`)
但这表格也暗示了事务 A 的 IX 锁不会导致另一个事务 C 的`SELECT ... FOR SHARE`所产生的 IS 锁被挂起(`Compatible`),尽管我也不知道这会在哪个事务隔离级别下成立(可能是`READ COMMITTED`),但阁下的确可以亲自试试看
daxiguaya
2023-01-19 15:16:50 +08:00
@h0099 1. 我对于"进程锁"所要处理的问题有不一样的看法. 我认为"进程锁"应当能解决你提出的"幻读"的问题,它存的是真正写入的数据. 你担心"无事可做",只能说目前只能保证不会重复插入导致整个事务回滚,这个应该更重要? 关于"饥饿"的问题,如果真的是瓶颈的话,可以提早去识别"垃圾数据": 非当前所有活跃"写事务"需要的数据都是"垃圾数据"

2. 就算有各种释放锁、忽略的机制我认为还是有漏洞(还是上面说的那个时机),关键点在于向"进程锁"写入数据在提交之前. 确实加了些机制容错,但在 `"线程 1"向"进程锁"插入数据->处理失败"进程锁"数据` 的中间会有`"线程 2"读取"进程锁"`. 如果有理解不对的地方可以直接忽略掉.

PS: `SELECT ... FOR UPDATE`这个问题我保留观点,还要考虑间隔锁、表锁之类的问题,除非死锁的时候我会去 DEBUG 数据库的锁状态,其它情况我想操这个心 :)
h0099
2023-01-19 21:35:26 +08:00
> 我认为"进程锁"应当能解决你提出的"幻读"的问题

我遇到的不是幻读而是“滞后”读,您可以从图 1 中看出来线程 2 读取进程锁时线程 1 已经释放了线程 1 此前插入并锁的行 a ,而线程 2 此前从数据库中读时还不存在行 a ,所以导致线程 2 从两处取得(时机上一个太早一个太晚)的事实都是不存在行 a

> 它存的是真正写入的数据

准确地说进程锁缓存着的行在数据库中有 3 种状态:即将 INSERT (还没 COMMIT ),已经 INSERT ( COMMIT 了,只有这个状态下是`真正写入的数据`),INSERT 失败( ROLLBACK 了)

> 只能说目前只能保证不会重复插入导致整个事务回滚,这个应该更重要?



> 提早去识别"垃圾数据": 非当前所有活跃"写事务"需要的数据都是"垃圾数据"

的确可以提前不去生成已经被进程锁占据着的行的数据

> 在 `"线程 1"向"进程锁"插入数据->处理失败"进程锁"数据` 的中间会有`"线程 2"读取"进程锁"`

所以阁下的意思还是建议使用您最初提出的`"进程锁"清理数据的时机可以调整下,等到没有任何活跃事务的情况下再把它清掉.`
但问题并不在线程 2 在线程 1 还占据着进程锁中的行 a 时去读取进程锁中的行 a ,因为进程锁的目的不就是让线程 2 (或更多后续任务)知道现在行 a 被线程 1 占据着吗?

> 还要考虑间隔锁、表锁之类的问题

根据 https://dev.mysql.com/doc/refman/8.0/en/innodb-locking.html#innodb-gap-locks
> 对于使用唯一索引锁定行以搜索唯一行的语句,不需要间隙锁定。(这不包括搜索条件只包括多列唯一索引的某些列的情况;在这种情况下,确实会发生间隙锁定。)例如,如果该 id 列具有唯一索引,则以下语句仅使用一个索引记录锁定 id 值为 100 的行,其他会话是否在前面的间隙中插入行并不重要:
> SELECT * FROM child WHERE id = 100;
> 如果 id 未索引或具有非唯一索引,则该语句会锁定前面的间隙。

而这里的 a 所在的字段是具有 UNIQUE 约束的并且 SELECT 的 WHERE 子句使用=而不是< > BETWEEN 等 range operator ,所以只有 row lock 而没有 gap lock

> 这里还值得注意的是,不同事务可以在间隙上持有冲突锁。例如,事务 A 可以在一个间隙上持有一个共享间隙锁(间隙 S 锁),而事务 B 在同一间隙上持有一个独占间隙锁(间隙 X 锁)。允许冲突间隙锁的原因是,如果从索引中清除记录,则必须合并不同事务在记录上持有的间隙锁。
> 间隙锁 InnoDB 是“纯粹抑制性的”,这意味着它们的唯一目的是防止其他事务插入间隙。间隙锁可以共存。一个事务获取的间隙锁不会阻止另一个事务在同一间隙上获取间隙锁。共享和排他间隙锁之间没有区别。它们彼此不冲突,并且它们执行相同的功能。

这应该暗示了`SELECT ... WHERE uniq > 1 FOR SHARE`( gap IS )可以与`SELECT ... WHERE uniq > 1 FOR UPDATE`( gap IX )同时执行

> 可以明确禁用间隙锁定。如果您将事务隔离级别更改为 READ COMMITTED ,则会发生这种情况。在这种情况下,间隙锁定在搜索和索引扫描中被禁用,并且仅用于外键约束检查和重复键检查。
> 使用隔离级别 READ COMMITTED 还有其他影响 。在 MySQL 评估 WHERE 条件后,释放不匹配行的记录锁。对于 UPDATE 语句,InnoDB 进行“半一致”读取,这样它将最新提交的版本返回给 MySQL ,以便 MySQL 可以确定该行是否匹配 UPDATE 的 WHERE 条件

这可能也就是我在生产中只要使用 mysql 默认的`REPEATABLE READ`隔离级别就会疯狂死锁的原因

> 除非死锁的时候我会去 DEBUG 数据库的锁状态,其它情况我想操这个心 :)

建议无脑降低事务隔离级别至`READ COMMITTED`
h0099
2023-01-24 09:21:41 +08:00
https://github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401081050 @yangbowen

> 可以看出在符合这个时序图的流程中进程锁和数据库层事务都无法阻止这种冲突,因为
> 1. `线程 2`访问数据库表中已有行的时机早于`` 线程 1``COMMIT ``他的`INSERT`,所以`线程 2`无法预见`线程 1`将在未来插入行`a`(由于`READ COMMITED`事务隔离级别)
> 2. `线程 2`访问进程锁的时机又晚于`线程 1`完成`COMMIT`和释放进程锁中的行`a`,所以`线程 2`也不知道此前`线程 1`已经插入了行`a`

蛮怪的。我不懂数据库但是,既然`线程 2`在`START TRANSACTION`之后的读`SELECT * FROM t`,由于`线程 1`的写的成功`COMMIT`,其读取值已不再正确,那么`线程 2`的`COMMIT`不该失败吗?否则它岂不是`TRANSACTION`了个寂寞?
如果`TRANSACTION`的存在并没有让事务中的这两个语句产生什么关系,换言之`COMMIT`只是让`INSERT`生效的话。那么既然您的两个(或更多个)线程,在`INSERT`和`COMMIT`**之间**并没有与全局锁或者其它线程有任何交互,那么从开始`INSERT`到`COMMIT`起作用的这段时间对于该线程以外是没有看得见的效果的。`INSERT`立即生效,跟`INSERT`然后立即`COMMIT`然后生效,从外面看起来是一样的。所以,这和您不用`TRANSACTION`应当没有任何差别。

> 可见降至`READ UNCOMMITED`后允许`dirty read`的发生,也就是对于如下时序:

这应该也是不对的吧?允许`dirty read`的发生,应该并不是说保证它会发生?
h0099
2023-01-24 09:22:08 +08:00
@yangbowen https://github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401116944

> `DUPLICATED`表示`线程 2`试图插入已经被`线程 1`插入了的行,因此违反了数据库层的`UNIQUE`约束

我的理解是这里需要的行为实际上是一个原子的 [RMW 操作]( https://en.wikipedia.org/wiki/Read%E2%80%93modify%E2%80%93write) ——如何插入这一行是依赖于 相同的行是否已被插入 这个要读取到的条件的。这个读操作+插入操作整体上必须是原子的 /事务的。
比较常见的一种做法是提供 [CAS]( https://en.wikipedia.org/wiki/Compare-and-swap) 原子操作:如果满足[条件]那么[写入]否则[失败] 。另一种做法是提供 [LL/SC]( https://en.wikipedia.org/wiki/Load-link/store-conditional) :如果先前读取的[几个位置]没有被写入那么[写入]否则[失败]。x86 提供前者,而 ARM 提供后者,而不只是提供原子的读、写。以 CAS 为例,使用者可以采取如下方案:
```
临时值 = 读(全局值);
临时值 2 = 计算(临时值);
while (!CAS(全局值, 临时值, 临时值 2)) {
临时值 = 读(全局值);
临时值 2 = 计算(临时值);
}
```
其中`CAS`是原子的
```
CAS(data, expected, desired) {
if (data == expected) {
data = desired;
return true;
} else {
return false;
}
}
```
实际上维基百科关于上面说的 RMW 操作的 [词条]( https://en.wikipedia.org/wiki/Read%E2%80%93modify%E2%80%93write) 也已指出,CAS 、LL/SC 具有更高的 共识数 ,不可能只用 原子读 、原子写 之类的具有更低 共识数 的操作实现,无论做多少个这样的操作。
那我觉得您的这个场景也是类似的,您需要的是一个原子的 仅当不会冲突才写入 的操作,不可能只用低共识数的 总是读取 总是写入 操作实现。

---

关于这个方案再多说几点。

- 它不会发生死锁。不论 CAS 是否成功发生,它都立即返回而不作等待。它根本不阻塞,所以也不存在死锁。
- 它也不会发生[活锁]( https://en.wikipedia.org/wiki/Deadlock#Livelock)。如果某个线程的 CAS 失败,那是因为其它线程在它读取和 CAS 的间隙当中做了写入。虽然此线程需要在循环中重新 CAS 一遍,但导致其失败的线程一定成功完成了写入。所以总是有进展发生,不存在活锁。
- CPU 提供的这种指令通常宽度有限——只能对一定宽度的数据做这个原子操作,不能将这种原子性扩展到更大的数据结构当中。这种宽度限制不能被简单地克服,无法只用较窄的原子 CAS 实现更宽的原子 CAS 。x86 最长提供到机器字长两倍宽度的 CAS ,即 32 位下的 CMPXCHG8B 指令和 64 位下的 CMPXCHG16B 指令。如何用宽度受限的原子 CAS 操作实现更复杂的无锁数据结构是一个被广泛研究的问题。但对数据库这类更重量级的软件实现(而且可以接受高得多的操作延迟)而言,理应不受如此紧凑的限制。
- 上面用伪代码表示的这个方案只涉及了`总是要写入只是写入多少需要根据读取值决定`的简单情况。对这个做一定的调整也不难类似地实现例如`只对当前全局值的一部分情况要做写入,否则需要等待其它线程对全局值做更多修改`之类的情形。或者说这个`while`可以兼具自旋锁的功能。同时根据需要还可以在循环体内加入 sleep 或者阻塞的语句。这些情况下,上述关于`它不会死锁也不会活锁`的表述不再适用。

总之,这是一个很通用的原理。我猜对于数据库的分布式访问来说应该也是有原理相当的构造的。只是发生在更长的延时、更大的数据、更复杂的数据结构。
h0099
2023-01-24 09:23:11 +08:00
@n0099 github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401199725

github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401081050

> 既然`线程 2`在`START TRANSACTION`之后的读`SELECT * FROM t`,由于`线程 1`的写的成功`COMMIT`,其读取值已不再正确,那么`线程 2`的`COMMIT`不该失败吗?否则它岂不是`TRANSACTION`了个寂寞?

在图
user-images.githubusercontent.com/13030387/214179293-c04a07a2-41cd-4b01-bb01-3852c4a426e3.png
中`线程 2`是在`线程 1`执行`INSERT`和`COMMIT`之前就`SELECT`了的,因此`线程 2`认为行 a 不存在,而`线程 2`如果不`INSERT`行 a 而是直接`COMMIT`那么什么错误都不会发生
因为`COMMIT`本就极少会产生错误( stackoverflow.com/questions/3960189/can-a-commit-statement-in-sql-ever-fail-how ),所以所有图中的`DUPLICATE`错误都是在执行`INSERT`时就发生的而不是`COMMIT`(图中画在一起了所以容易误导)

SQL 中的`TRANSACTION`只是用来封装多个 SQL 使其成为原子操作的,就像 CAS

> 如果`TRANSACTION`的存在并没有让事务中的这两个语句产生什么关系,换言之`COMMIT`只是让`INSERT`生效的话。

`COMMIT`让`INSERT`生效只不过是二次确认了`写入行 a 或 b`这个操作所以数据库会把这个行真的写入硬盘

实际上对于 mysql innodb 而言`COMMIT`写入后还有一大堆内存缓冲区如[redolog]( dev.mysql.com/doc/refman/8.0/en/optimizing-innodb-logging.html) [doublewrite]( dev.mysql.com/doc/refman/8.0/en/innodb-doublewrite-buffer.html),只有等到这些内存缓存的 buffer page 也被 fsync 到硬盘上了才是真的数据落地
然而有些硬盘驱动会欺骗系统以让[fsync syscall]( dev.mysql.com/doc/refman/8.0/en/innodb-parameters.html#sysvar_innodb_flush_method)立即返回但实际上数据还在硬盘的缓存里并没有实际写入持久存储:
www.percona.com/blog/2018/02/08/fsync-performance-storage-devices/
dev.mysql.com/doc/refman/8.0/en/innodb-parameters.html#sysvar_innodb_flush_log_at_trx_commit
> 许多操作系统和一些磁盘硬件会欺骗刷新到磁盘的操作。他们可能会告诉 [mysqld]( dev.mysql.com/doc/refman/8.0/en/mysqld.html)刷新已经发生,即使它没有发生。在这种情况下,即使使用推荐的设置也无法保证事务的持久性,在最坏的情况下,断电可能会损坏 InnoDB 数据。在 SCSI 磁盘控制器或磁盘本身中使用电池供电的磁盘缓存可以加快文件刷新速度,并使操作更安全。您还可以尝试禁用硬件缓存中的磁盘写入缓存。

但这一切对数据库用户而言都是无关的(抽象隔离),用户只需要知道`COMMIT`了就是不可撤销地写入数据库了
请注意即便`COMMIT`了也不代表其他并行事务就能知道您已经`COMMIT`了`INSERT`了`行 a`(也就是`dirty read`),因为在防止`dirty read`的事务隔离级别(`REPEATABLE READ`及以上,如`SERIALIZED`)中其他事务有可能不知道您`INSERT`了的(因为其他事务先前`SELECT`过所以产生了`SNAPSHOT`,从而保证`REPEATABLE READ`)

> 那么既然您的两个(或更多个)线程,在`INSERT`和`COMMIT`**之间**并没有与全局锁或者其它线程有任何交互

实际运行时环境的线程比这的 2 个更多,并且在`COMMIT`之前会有许多个`INSERT`被执行,所以会有更多交互,我画的图是试图简化模型

> 那么从开始`INSERT`到`COMMIT`起作用的这段时间对于该线程以外是没有看得见的效果的。`INSERT`立即生效,跟`INSERT`然后立即`COMMIT`然后生效,从外面看起来是一样的。所以,这和您不用`TRANSACTION`应当没有任何差别。

如果阁下的`INSERT 生效`是指让其他事务看得见所`INSERT`的行(`dirty read`),那么必须等到`COMMIT`之后才有可能发生`dirty read`,因此此处的所有`SESSION`的事务隔离级别都是`READ COMMITTED`而不是最弱的`READ UNCOMMITTED`
对于 mysql ,如果`线程 2INSERT 行 a`时数据库层发现这违反了`UNIQUE 约束`(因为`线程 1`已经这么做了),那么在此时就会返回错误并静默地`ROLLBACK`事务而不是等到`COMMIT`时再这么做
使用事务包裹`SELECT`和`INSERT`的目的是为了让他们进入同一个原子操作中(就像 CAS ),因为实际上`在`COMMIT`之前会有许多个`INSERT`被执行`所以需要避免在`INSERT`重复行时由于 mysql 返回错误而只`INSERT`了一半的行

> 这应该也是不对的吧?允许 dirty read 的发生,应该并不是说保证它会发生?

我没有说把事务隔离级别从`REPEATABLE READ`降低到`READ COMMITTED`就一定会发生`dirty read`,如果您只有一个线程在这对着一个`SESSION`执行 SQL (也就是`并行度=1`),那么什么`race condition`都不会发生
h0099
2023-01-24 09:23:54 +08:00
@n0099 github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401223094

github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401116944

> 我的理解是这里需要的行为实际上是一个原子的 [RMW 操作]( en.wikipedia.org/wiki/Read%E2%80%93modify%E2%80%93write) ——如何插入这一行是依赖于 相同的行是否已被插入 这个要读取到的条件的。这个读操作+插入操作整体上必须是原子的 /事务的。

是,所以阁下也看到了我后来需要给`SELECT`加上`FOR UPDATE`从而实现每个线程通过`SELECT`就能锁住他们准备`INSERT`的`行 a 或 b`,mysql 称其为`IX 锁`:dev.mysql.com/doc/refman/8.0/en/innodb-locking.html#innodb-intention-locks

> 那我觉得您的这个场景也是类似的,您需要的是一个原子的 仅当不会冲突才写入 的操作,不可能只用低共识数的 总是读取 总是写入 操作实现。

而仅靠一个与 mysqld 进程毫无关系的进程范围全局锁是不可能保证 `SELECT/INSERT`和对`进程锁`的写 会被包裹进同一个原子操作的

> CAS 、LL/SC 具有更高的 共识数 ,不可能只用 原子读 、原子写 之类的具有更低 共识数 的操作实现,无论做多少个这样的操作。

所以我们的`四叶头子 CS 硕士 PLT 理论中级高手仏皇 irol 阁下` @kokoro-aya 再一次从计算机科学理论研究的角度为我们提前证明了这一点,而无需亲自下凡接触 mysqld

> * 它不会发生死锁。不论 CAS 是否成功发生,它都立即返回而不作等待。它根本不阻塞,所以也不存在死锁。

而对于 SQL 的`TRANSACTION`而言不可能要求用户一次性就能把他想封装成原子操作的所有语句都发送过来让数据库处理
也就是说用户发送的语句是一条条分开的(每条语句之间可以间隔无限久时间),而不是在单次通信中就发送(实际上如果用户提前就知道我到底要发送多少条语句,那`TRANSACTION`所带来的原子性的意义就被削弱了,只剩下事务中任意语句失败时整个事务都会`ROLLBACK`以保证数据一致性这个用途)
```sql
START TRANSACTION;
SELECT ...;
INSERT ...;
COMMIT;
```
那么此时如果某个语句显式声明了锁,如`SELECT ... FOR UPDATE`产生了`IX 锁(有意排他锁)`
或由于当前事务隔离级别(如`SERIALIZED`)导致语句隐式声明了锁
那么有上锁就必定会有并行事务一直阻塞等待解锁,直到 serverfault.com/questions/241823/setting-a-time-limit-for-a-transaction-in-mysql-innodb

> * 它也不会发生[活锁]( en.wikipedia.org/wiki/Deadlock#Livelock)。如果某个线程的 CAS 失败,那是因为其它线程在它读取和 CAS 的间隙当中做了写入。虽然此线程需要在循环中重新 CAS 一遍,但导致其失败的线程一定成功完成了写入。所以总是有进展发生,不存在活锁。

而对于这种传统的阻塞锁设计而言只要复数个线程请求同一资源的频率足够高就很容易导致`livelock`,结果哪个线程都没有真的`INSERT`,enwiki 条目也进一步指出`livelock`是[starvation]( en.wikipedia.org/wiki/Starvation_(computer_science))的特例:`Livelock is a special case of resource starvation; the general definition only states that a specific process is not progressing.`

> * CPU 提供的这种指令通常宽度有限——只能对一定宽度的数据做这个原子操作,不能将这种原子性扩展到更大的数据结构当中。这种宽度限制不能被简单地克服,无法只用较窄的原子 CAS 实现更宽的原子 CAS 。x86 最长提供到机器字长两倍宽度的 CAS ,即 32 位下的 CMPXCHG8B 指令和 64 位下的 CMPXCHG16B 指令。

`无法只用较窄的原子 CAS 实现更宽的原子 CAS` 我的理解是同样是因为阁下此前提及的`共识数`,比如用两个`32 位 CAS 操作`来试图封装一个`64 位资源`成原子性的会导致其`共识数`不同,如 en.wikipedia.org/wiki/Consensus_(computer_science)#Consensus_number 的表格中指出:
Consensus number|Objects
-|-
$2n-2$|n-register assignment

> 如何用宽度受限的原子 CAS 操作实现更复杂的无锁数据结构是一个被广泛研究的问题。但对数据库这类更重量级的软件实现(而且可以接受高得多的操作延迟)而言,理应不受如此紧凑的限制。

所以传统数据库厂商无法把 CPU 指令集层面提供的`同步原语`进一步封装嵌入 RDBMS 设计中通过抽象隔离暴露给用户来用

> * 上面用伪代码表示的这个方案只涉及了`总是要写入只是写入多少需要根据读取值决定`的简单情况。对这个做一定的调整也不难类似地实现例如`只对当前全局值的一部分情况要做写入,否则需要等待其它线程对全局值做更多修改`之类的情形。或者说这个`while`可以兼具自旋锁的功能。同时根据需要还可以在循环体内加入 sleep 或者阻塞的语句。这些情况下,上述关于`它不会死锁也不会活锁`的表述不再适用。

只要引入了对`desync`(当要写入的值已经被改了就说明发送了同步失效,也就是违反了 en.wikipedia.org/wiki/Linearizability )的资源进行等待(不论上锁还是解锁)都会重新回到阻塞锁模型中所以`dead/livelock`的幽灵又回来了

> 总之,这是一个很通用的原理。我猜对于数据库的分布式访问来说应该也是有原理相当的构造的。只是发生在更长的延时、更大的数据、更复杂的数据结构。

传统老牌 RDBMS 中基本没有什么无锁数据结构,毕竟其内部结构实现过于复杂恶俗使得他们无从下手改造成无锁的,这也是为什么 V2EX 的 @daxiguayawww.v2ex.com/t/908047#r_12595620 指出
> 还要考虑间隔锁、表锁之类的问题,除非死锁的时候我会去 DEBUG 数据库的锁状态,其它情况我想操这个心 :)
h0099
2023-01-24 09:24:21 +08:00
@n0099 https://github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401263844

而我也大量使用了`.NET`所提供的这类`RMW 同步原语`如
- https://learn.microsoft.com/en-us/dotnet/api/system.threading.interlocked
https://github.com/n0099/TiebaMonitor/blob/5f6abb0ac8581d09903cdb9da667d7b99b8427dd/crawler/src/Worker/ArchiveCrawlWorker.cs#L86
https://github.com/n0099/TiebaMonitor/blob/5f6abb0ac8581d09903cdb9da667d7b99b8427dd/crawler/src/Worker/ArchiveCrawlWorker.cs#L67
https://github.com/n0099/TiebaMonitor/blob/2f84a4ab96c07e0e1d7055d945ce9bcae9085a90/crawler/src/Tieba/ClientRequesterTcs.cs#L26
https://github.com/n0099/TiebaMonitor/blob/2f84a4ab96c07e0e1d7055d945ce9bcae9085a90/crawler/src/Tieba/ClientRequesterTcs.cs#L69
- https://learn.microsoft.com/en-us/dotnet/api/system.collections.concurrent.concurrentdictionary-2
https://github.com/n0099/TiebaMonitor/search?q=concurrent

然而很明显`.NET`对`system.collections.concurrent`下的类的内部实现并不一定是完全采用基于`RMW 同步原语`的无锁操作设计的:
https://devblogs.microsoft.com/pfxteam/faq-are-all-of-the-new-concurrent-collections-lock-free/
> (此答案基于 .NET Framework 4 。 由于以下详细信息是未记录的实施细节,因此它们可能会在未来的版本中更改。)
> 否。新的 System.Collections.Concurrent 命名空间中的所有集合在某种程度上都采用了无锁技术以实现一般性能优势,但在某些情况下使用传统锁。
> ConcurrentBag<T> 有时需要锁定,但对于某些并发场景(例如,许多线程以相同的速率进行生产和消费),它是一个非常有效的集合。
> ConcurrentDictionary<TKey,TValue> 在向字典中添加或更新数据时使用细粒度锁定,但它对于读取操作是完全无锁的。 这样针对以字典读取为最频繁操作的场景进行了优化。

https://www.red-gate.com/simple-talk/blogs/inside-the-concurrent-collections-concurrentdictionary/ 进一步指出:
> 那么,如果你要实现一个线程安全的字典,你会怎么做?天真的实现是简单地在所有访问字典的方法周围加一个锁。这可行,但不允许太多并发。
> 幸运的是,使用的分桶 Dictionary 允许对此进行简单但有效的改进——每个桶一个锁。这允许修改不同存储桶的不同线程并行进行。任何对存储桶内容进行更改的线程都会锁定该存储桶,确保这些更改是线程安全的。将每个桶映射到锁的方法是 GetBucketAndLockNo 方法:
```csharp
private void GetBucketAndLockNo(
int hashcode, out int bucketNo, out int lockNo, int bucketCount) {

// the bucket number is the hashcode (without the initial sign bit)
// modulo the number of buckets
bucketNo = (hashcode & 0x7fffffff) % bucketCount;

// and the lock number is the bucket number modulo the number of locks
lockNo = bucketNo % m_locks.Length;
}
```
> 但是,这确实需要对存储桶的实现方式进行一些更改。非并发使用的单个后备数组中的“隐式”链表 Dictionary 在不同的桶之间增加了依赖性,因为每个桶都使用相同的后备数组。相反,ConcurrentDictionary 在每个桶上使用严格的链表:
> ![image]( https://user-images.githubusercontent.com/13030387/214192943-2de2a6ee-195f-4d1f-b302-2ff922eff717.png)
> 这确保每个桶都与所有其他桶完全分开;从桶中添加或删除项目独立于对其他桶的任何更改。

所以就有了基于`NonBlockingHashMap`这个无锁数据结构(众所周知 dict 本质`hashmap+bucket array`)实现的`ConcurrentDictionary`: https://github.com/VSadov/NonBlocking

进一步的我在`奥利金德数理逻辑带手子当代图灵可计算性理论中级高手 dc 神` @dylech30th 的指导下也意识到了接连使用复数个原子操作不代表这个操作集合也是原子性的(从`共识数`理论可得),所以我在 https://github.com/n0099/TiebaMonitor/blob/c414ca3429ceb1cd4a7607c10fb79cb608b7cd2d/crawler/src/Tieba/Crawl/CrawlerLocks.cs#L44 中还是需要无脑 lock 整个`ConcurrentDictionary`类实例使得对其的复数个原子操作都被包裹进一个原子操作中(就像 SQL `TRANSACTION`),这实际上使得在这里使用`ConcurrentDictionary`没啥意义了,因为其内部的每个原子操作又带来了不必要(整个 dict 业已被锁所以`并行度=1`)的无锁 /有锁`.NET`实现开销
h0099
2023-01-25 16:20:23 +08:00
@n0099 https://github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401291684

TL;DR: 我在 mysql 中使用`TRANSACTION`封装两个 [`SELECT ... FOR UPDATE`]( https://dev.mysql.com/doc/refman/8.0/en/innodb-locking-reads.html)所产生的[`IX 锁`]( https://dev.mysql.com/doc/refman/8.0/en/innodb-locking.html#innodb-intention-locks) 和 `INSERT` 语句使其成为原子操作实现了类似于[`ConcurrentDictionary.GetOrAdd`]( https://learn.microsoft.com/en-us/dotnet/api/system.collections.concurrent.concurrentdictionary-2.getoradd)的同步原语(您可以将具有`UNIQUE`约束的二维表视作一个`Dict<uniqueKey,fieldsTuple>`数据结构)

https://github.com/n0099/TiebaMonitor/issues/32#issuecomment-1379143131
> 不难看出此时进程范围的全局锁(进程锁)已经没有存在的必要了,因为他的目的跟 IX 锁是类似的(但他无法目前像 IX 锁那样无限期阻塞任何试图读取进程锁的线程)

事实核查:截止 2023 年 1 月,我仍然无法直接在生产环境中删除进程锁,因为我观察到在删除后仍然会造成这种`race condition`并且无法得到合理解释
h0099
2023-01-25 16:20:44 +08:00
@yangbowen https://github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401418933

> 并且在`COMMIT`之前会有许多个`INSERT`被执行

其实你只要说这句就够了,其它诸如持久化等在这个问题当中似乎是无关的吧。
对于多个写操作,`TRANSACTION`保证了它们整体的原子性——同时的或将来的其它会话要么看到所有这些写入,要么全都不看到。是吧?
这完全能够理解,不理解的部分是`TRANSACTION`对事务内的读取(`SELECT`)如何起作用。如果读取同样被包含在这种原子性当中,那您开头所说的进程全局锁理应是多余的;反之,在只有一个写入语句的简化情况下`TRANSACTION`的存在似乎并没有任何作用的样子。
或者这么说:如果将`SELECT`移到`START TRANSACTION`之前(事务外),行为上是否会有任何可以依赖的差别呢?

---

> 如果阁下的`INSERT 生效`是指让其他事务看得见所`INSERT`的行(`dirty read`),那么必须等到`COMMIT`之后才有可能发生`dirty read`,因此此处的所有`SESSION`的事务隔离级别都是`READ COMMITTED`而不是最弱的`READ UNCOMMITTED`

`生效`的意思当然就是说能够被读取看到。`COMMIT`之前的`INSERT`不会被看到效果。但,在只需要一个`INSERT`的简化例子当中,彻底把`TRANSACTION`删掉,让`INSERT`立即生效(比起`INSERT`之后该线程紧接着执行`COMMIT`让`INSERT`生效,并没有在这之间和全局锁发生任何交互),跟开头的例子有什么差别呢?这是我所没能理解的。

> 对于 mysql ,如果`线程 2INSERT 行 a`时数据库层发现这违反了`UNIQUE 约束`(因为`线程 1`已经这么做了),那么在此时就会返回错误并静默地`ROLLBACK`事务而不是等到`COMMIT`时再这么做

不难理解当`INSERT`由于违反约束而失败时整个事务失败并被`ROLLBACK`。但假如`INSERT`并没有(数据库的)错误,却是调用者基于先前`SELECT`到的,而现在已经被修改掉的数据,所作出的呢?是否有这样的事务隔离级别,从而在这种情况下也会`ROLLBACK`整个事务?
举个例子,假设自行实现某种自增计数器,而且并没有在数据库中设置相应的约束。线程 1 读取了计数器的当前值,根据当前值递增后写入递增后的值,这些操作被放在一个事务当中。线程 2 也做同样的事,但是刚好在线程 1 的两个操作之间完成了线程 2 的所有操作。于是,线程 1 准备写入的值跟线程 2 是一样的。
像这样的情况下就算这个写入操作是合法的,不违反数据库的约束,也理应让线程 1 的事务回滚而非成功提交。广泛一点来说,线程 1 的事务的 读取集 (事务中读过哪些数据——准备写入的东西可能是调用者根据这些数据推算出的)跟线程 2 的事务的 写入集 (事务中写入了哪些数据)有重合,这样的情况下很可能不应该让两个事务都成功提交。写入的数据可能依赖于先前的读取,而且调用者(在得知事务成功提交后)的后续操作可能依赖于`确实是在读取到的这样的数据的基础上发生了这样的写入`。

---

> 而仅靠一个与 mysqld 进程毫无关系的进程范围全局锁是不可能保证 `SELECT/INSERT`和对`进程锁`的写 会被包裹进同一个原子操作的

实际上是可能的,只不过大概不是你要的效果。那就是所有需要原子操作的地方获取全局锁。意味着不论这些原子操作访问了什么,都无法并行。
事实上,包括 C++ 标准库在内的一些库,对于根本没有什么硬件原子操作支持的平台,就可以这样实现原子操作。但截至目前我并未知悉有这样的平台(多处理器,但没有硬件原子操作支持)。
实现 自旋锁 或者 互斥体 并不需要 CAS ,只需要比它弱得多的 [test-and-set]( https://en.wikipedia.org/wiki/Test-and-set) ——将某个 bit 置为 1 并返回置位前的值,就够了:
```
获取锁() {
do {
临时值 = test_and_set(全局位);
} while (临时值 == 0);
}
释放锁() {
clear(全局位);
}
```
显然用 CAS 或者 LL/SC 很容易实现 test-and-set ,反过来则不行。

---

除了这种完全舍弃并行的做法以外,既然这个事务性是跟 读取集 写入集 相关联的,那么我当然认为这种事务约束理应由数据库而不是调用者实现。

---

> `无法只用较窄的原子 CAS 实现更宽的原子 CAS` 我的理解是同样是因为阁下此前提及的`共识数`,比如用两个`32 位 CAS 操作`来试图封装一个`64 位资源`成原子性的会导致其`共识数`不同,如 https://en.wikipedia.org/wiki/Consensus_(computer_science)#Consensus_number 的表格中指出:

我想这并不是一回事。共识数跟操作的宽度并没有必然关系吧。
另外其实也不是不可以,比方说在 GC 环境下可以这么做:
```
指针 全局值;
读对象() {
指针 临时值 = 原子读取(全局值);
return 解引用(临时值);
}
CAS 对象(对象 expected, 对象 desired) {
指针 临时值 = 原子读取(全局值);
if (对象相等(解引用(临时值), expected)) {
指针 临时值 2 = new 对象(desired);
return 原子 CAS(全局值, 临时值, 临时值 2);
} else {
return false;
}
}
```
也就是说不修改对象,而是每次都创建新的对象,然后对指针做 CAS 。在 GC 环境下是可行的,在非 GC 环境下则会面临释放时机的问题,还有 ABA 问题 。
这个对象可以是任意大的数据结构,比方说可以是一整个 dict 数据结构,只不过为了修改一个值拷贝整个数据结构很容易让它完全丧失性能优势,还不如直接全局加锁。
总之这里只是说不能简单地组合多个窄 CAS 来代替一个宽 CAS 。事实上,之所以处理器通常提供到两倍机器字长的 CAS ,一个主要原因是上述(无锁数据结构)方案,再加上一个额外的整数跟这个指针一同被 CAS ,就需要两倍机器字长的 CAS 。
h0099
2023-01-25 16:20:59 +08:00
@yangbowen https://github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401433577

> 而对于 SQL 的`TRANSACTION`而言不可能要求用户一次性就能把他想封装成原子操作的所有语句都发送过来让数据库处理 也就是说用户发送的语句是一条条分开的(每条语句之间可以间隔无限久时间),而不是在单次通信中就发送(实际上如果用户提前就知道我到底要发送多少条语句,那`TRANSACTION`所带来的原子性的意义就被削弱了,只剩下事务中任意语句失败时整个事务都会`ROLLBACK`以保证数据一致性这个用途)

这很合理。但是……

> ```sql
> START TRANSACTION;
> SELECT ...;
> INSERT ...;
> COMMIT;
> ```
>
> 那么此时如果某个语句显式声明了锁,如`SELECT ... FOR UPDATE`产生了`IX 锁(有意排他锁)` 或由于当前事务隔离级别(如`SERIALIZED`)导致语句隐式声明了锁 那么有上锁就必定会有并行事务一直阻塞等待解锁,直到 https://serverfault.com/questions/241823/setting-a-time-limit-for-a-transaction-in-mysql-innodb

但不太能理解的是为什么它一定要让其它事务阻塞等待,而不是先返回不可靠的`SELECT`结果,如果有冲突的话再让`COMMIT`失败,整个事务被`ROLLBACK`,而且`截至 COMMIT 成功之前调用者必须把 SELECT 结果视为不可靠的,不能当真`呢?
虽然`TRANSACTION`中的不同语句可以间隔任意久的时间,但数据库引擎对于开着的`TRANSACTION`肯定是要保持某些状态记录的。那么它完全可以做成为每个`TRANSACTION`记录 读取集 和 写入集 ,仅当从`START TRANSACTION`到`COMMIT`之间读取集未曾和其它事务的写入集发生重合时才允许`COMMIT`成功,否则要求调用者退回`START TRANSACTION`重来而且先前的`SELECT`结果必须不作数。
[Intel TSX]( https://en.wikipedia.org/wiki/Transactional_Synchronization_Extensions) 这个指令集就是这么做的,如果发生任何冲突就失败并且让调用者重来。利用现代处理器已有的缓存一致性协议等,处理器确实能够检测到冲突并在这样的情况下撤销已经执行的指令的影响。只不过比较不幸,它大概很难实现得安全,反复地出现安全漏洞(恶意的代码能够让`本来无权读取的内存`对`将要被撤销的状态`产生影响,再通过某些侧信道区别这些`本应撤销的状态差异`,从而作未授权的读取)迫使英特尔禁用该指令集。
但这种原理应该是首先出现在数据库领域当中,后来才启发了 CPU 设计者设计类似原理的 CPU 指令的。只是我不知道具体哪个数据库的哪种操作允许这样,而不是采用锁和等待。

> > * 它也不会发生[活锁]( https://en.wikipedia.org/wiki/Deadlock#Livelock)。如果某个线程的 CAS 失败,那是因为其它线程在它读取和 CAS 的间隙当中做了写入。虽然此线程需要在循环中重新 CAS 一遍,但导致其失败的线程一定成功完成了写入。所以总是有进展发生,不存在活锁。
>
> 而对于这种传统的阻塞锁设计而言只要复数个线程请求同一资源的频率足够高就很容易导致`livelock`,结果哪个线程都没有真的`INSERT`,enwiki 条目也进一步指出`livelock`是[starvation]( https://en.wikipedia.org/wiki/Starvation_(computer_science))的特例:`Livelock is a special case of resource starvation; the general definition only states that a specific process is not progressing.`

我上面说`不发生活锁`只是说整个系统一定有进展,但在非常高频率的情况下不保证单个线程一定有进展。相反,确实有可能某个线程反复地 CAS 失败,而且当它重新算好下次要 CAS 的值的时候这个共享的变量又被改掉了,导致这个线程没有进展。
在 CPU 指令的情况当中,线程通常有很多事要做,而 CAS 的单次循环通常很短,可能只是一个递增递减之类的。所以不太会一直在争抢某一个共享变量。得到进展的线程多半可以去做别的不争抢这个变量的工作。但在数据库的情况当中,一个事务的时间跨度长得多,单个或几个线程始终得不到进展是个更现实的问题。
h0099
2023-01-25 16:21:53 +08:00
@n0099 https://github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401548572

github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401418933

> 其实你只要说这句就够了,其它诸如持久化等在这个问题当中似乎是无关的吧。

github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401116944
> 提供 [CAS]( en.wikipedia.org/wiki/Compare-and-swap) 原子操作:如果满足[条件]那么[写入]否则[失败]

其实你只要说这句就够了,其它诸如 intel/arm risc/cisc 指令集之争等在这个问题当中似乎是无关的吧。

---
> 对于多个写操作,`TRANSACTION`保证了它们整体的原子性——同时的或将来的其它会话要么看到所有这些写入,要么全都不看到。是吧?

在`READ COMMITTED`及以上事务隔离级别中是能保证不发生`dirty read`的,只有降低到

回顾经典之`3.数据库事务隔离级别从 READ COMMITED 降至 READ UNCOMMITED`节的图
![image]( user-images.githubusercontent.com/13030387/214240624-e183eff5-e1d5-4733-99ad-8911c0d5c54f.png)

请注意本讨论串中的所有`dirty read`(除了上述那一个)都应该查找替换为`phantom read`(以及 typo 之`COMMITTED`少打了一个`T`),因为我最开始看着这图时就写错了:
> 可见降至 READ UNCOMMITED 后允许 dirty read 的发生

另外请注意尽管`non-repeatable read`和`phantom read`之间看起来很相似(他们的 UML 时序图甚至是完全相同的),但本质完完全全两码事:stackoverflow.com/questions/11043712/what-is-the-difference-between-non-repeatable-read-and-phantom-read

---
> 这完全能够理解,不理解的部分是`TRANSACTION`对事务内的读取(`SELECT`)如何起作用。如果读取同样被包含在这种原子性当中,那您开头所说的进程全局锁理应是多余的

`SELECT`是否对其所读出来的行资源进行锁定是取决于您有没有追加`FOR SHARE/UPDATE`的,建议复习:
dev.mysql.com/doc/refman/8.0/en/innodb-locking.html#innodb-intention-locks
dev.mysql.com/doc/refman/8.0/en/innodb-locking.html#innodb-insert-intention-locks
dev.mysql.com/doc/refman/8.0/en/innodb-locking-reads.html

---
> 反之,在只有一个写入语句的简化情况下`TRANSACTION`的存在似乎并没有任何作用的样子。

dev.mysql.com/doc/refman/8.0/en/commit.html 对此早有预言:
> 默认情况下,MySQL 在 启用[自动提交]( dev.mysql.com/doc/refman/8.0/en/glossary.html#glos_autocommit)模式的情况下运行。这意味着,当不在事务内时,每个语句都是原子的,就好像它被 START TRANSACTIONand 包围一样 COMMIT 。您不能使用 ROLLBACK 来撤销效果;但是,如果在语句执行期间发生错误,则回滚该语句。

---
> 或者这么说:如果将`SELECT`移到`START TRANSACTION`之前(事务外),行为上是否会有任何可以依赖的差别呢?

移出去会导致单条`SELECT`由于[`AUTO_COMMIT`]( dev.mysql.com/doc/refman/8.0/en/innodb-autocommit-commit-rollback.html)而变成一个只有他一个语句的事务(其隔离级别由于没有显式指定所以会使用 mysql 默认的`REPEATABLE READ`,然而实际上对于单语句事务而言任何隔离级别都是相同的),如果`SELECT`后面没有`FOR UPDATE`那么移出去也是一样的,即便有由于这是单语句事务所以 IX 锁也立即被释放了那还是没有造成差别

而在 stackoverflow.com/questions/1976686/is-there-a-difference-between-a-select-statement-inside-a-transaction-and-one-th/1976701#1976701 的中他所说的
> 是的,事务内部的人可以看到该事务中其他先前的 Insert/Update/delete 语句所做的更改;事务外的 Select 语句不能。

在`SELECT`所在的事务的隔离级别是`READ UNCOMMITTED`时应该是不成立的

然而 so 人早已道明真相:stackoverflow.com/questions/1171749/what-does-a-transaction-around-a-single-statement-do
> 这可能归因于“迷信”编程,或者它可能表明对数据库事务性质的根本误解。一种更仁慈的解释是,这只是过度应用一致性的结果,这是不恰当的,这是爱默生委婉语的另一个例子:
> 愚蠢的一致性是小脑袋的妖精,
> 受到小政治家、哲学家和神学家的崇拜

我的评价是:疑似当代 en.wikipedia.org/wiki/Cargo_cult en.wikipedia.org/wiki/Cargo_cult_programming stevemcconnell.com/articles/cargo-cult-software-engineering/

---

> `生效`的意思当然就是说能够被读取看到。`COMMIT`之前的`INSERT`不会被看到效果

这就是`READ COMMITTED`事务隔离级别

---
> 但,在只需要一个`INSERT`的简化例子当中,彻底把`TRANSACTION`删掉,让`INSERT`立即生效(比起`INSERT`之后该线程紧接着执行`COMMIT`让`INSERT`生效,并没有在这之间和全局锁发生任何交互),跟开头的例子有什么差别呢?这是我所没能理解的。

开头的例子里也不是只有一个`INSERT`啊,任何线程在`INSERT`前都必须先`SELECT`以排除已存在的行

---
> 调用者基于先前`SELECT`到的,而现在已经被修改掉的数据,所作出的呢?是否有这样的事务隔离级别,从而在这种情况下也会`ROLLBACK`整个事务?

无,所以需要乐观并发控制,如 MSSQL 中基于一个单调自增的`ROW_VERSION`字段来跟踪有无`UPDATE`
建议回顾 www.v2ex.com/t/909762#r_12593822

> 乐观并发控制是要求每个客户端的后续读写都得依赖于此前查询所获得的的`ROW_VERSION`
> 比如事务 1`SELECT yi, ver FROM t`获得`(a,0)`
> 那么事务 1 后续的所有对该行的读写( SELECT/UPDATE )都得依赖于`ver=0`这个此前获得的事实
> 也就是对于读:事务 1 期望重新`SELECT yi, ver FROM t`获得的还是`(a,0)`,这叫做`REPEATABLE READ`(避免了幻读`phantom read`),注意 mysql 默认的事务隔离级别就是`REPEATABLE READ`所以默认是已经保证了在同一事务内不断重新执行`SELECT yi, ver FROM t`返回的永远都是`(a,0)`
> 对于写:事务 1 期望`UPDATE t SET 某个其他字段 = 某值 WHERE yi = a AND ver = 0`所返回的`affected rows`是 1 行,而如果不是 1 行而是 0 行就意味着表 t 中已经不存在符合约束`WHERE yi = a AND ver = 0`的行,也就是说行`yi=a`已经被其他事务修改了
> 建议参考以某企业级 orm EFCore 为背景的 MSDN 微软谜语:learn.microsoft.com/en-us/ef/core/saving/concurrency
> 以及我之前对于类似的场景(但是是 INSERT-only 而不是 UPDATE )使用了数据库层提供的悲观并发控制,毕竟在 SQL 末尾加`FOR UPDATE`可比在 mysql 里用 TRIGGER 模拟单调递增的自增 sql server 的 ROW_VERSION 类型然后在程序业务逻辑里写乐观控制所带来的一大堆 if 简单多了:www.v2ex.com/t/908047

然而更现实的问题是乐观并发控制是用于协调`SELECT+UPDATE`而不是`SELECT+INSERT`的,而我这里又只有`INSERT`没有`UPDATE`,所以加了`ROW_VERSION`和对应的程序中乐观并发控制业务逻辑也无济于事

---
> 举个例子,假设自行实现某种自增计数器,而且并没有在数据库中设置相应的约束。线程 1 读取了计数器的当前值,根据当前值递增后写入递增后的值,这些操作被放在一个事务当中。线程 2 也做同样的事,但是刚好在线程 1 的两个操作之间完成了线程 2 的所有操作。于是,线程 1 准备写入的值跟线程 2 是一样的。

这就是阁下之后所提到的 en.wikipedia.org/wiki/ABA_problem 而乐观并发控制本质上也是为了解决这个

---
> 像这样的情况下就算这个写入操作是合法的,不违反数据库的约束,也理应让线程 1 的事务回滚而非成功提交。广泛一点来说,线程 1 的事务的 读取集 (事务中读过哪些数据——准备写入的东西可能是调用者根据这些数据推算出的)跟线程 2 的事务的 写入集 (事务中写入了哪些数据)有重合,这样的情况下很可能不应该让两个事务都成功提交。写入的数据可能依赖于先前的读取,而且调用者(在得知事务成功提交后)的后续操作可能依赖于`确实是在读取到的这样的数据的基础上发生了这样的写入`。

然而将单个值上升到集合层面就麻烦的多(什么 pythonic )
我能想出来的是线程 1 读取后就改一下`ROW_VERSION`,也就是说`ROW_VERSION`跟踪的不再是这行被改动了几次而是被读了几次
但这实际上就意味着又回到了`并行度=1`的[serializability]( en.wikipedia.org/wiki/Serializability),因为这时只有强迫同时只有一个线程在读写才能保证每个线程的`ROW_VERSION`都是他想要的(即`COMMIT`时也没被其他事务由于`SELECT`而改变)

---
> 实际上是可能的,只不过大概不是你要的效果。那就是所有需要原子操作的地方获取全局锁。意味着不论这些原子操作访问了什么,都无法并行。

然而很明显没人想要`四叶头子 CS 硕士 PLT 理论中级高手仏皇 irol 阁下`写 java 遇到并行问题时就无脑套一个大`synchronized() {}`block 来降低`并行度=1`,这只能作为性能不重要但一致性和事务成功率重要的金融军事等企业级场景

---
> 对于根本没有什么硬件原子操作支持的平台,就可以这样实现原子操作。但截至目前我并未知悉有这样的平台(多处理器,但没有硬件原子操作支持)。
> 实现 自旋锁 或者 互斥体 并不需要 CAS ,只需要比它弱得多的 [test-and-set]( en.wikipedia.org/wiki/Test-and-set)

然而 testandset 同样是一种 atomic 操作,他的名字就已经暗示了他是把两个常见的原本是独立的原子操作给封装成又一个原子操作

---
> 显然用 CAS 或者 LL/SC 很容易实现 test-and-set ,反过来则不行

en.wikipedia.org/wiki/Consensus_(computer_science)#Consensus_number 的表格中也进一步指出:
Consensus number|Objects
-|-
$1$|atomic read/write registers, mutex
$\infty$|compare-and-swap, load-link/store-conditional,[40] memory-to-memory move and swap, queue with peek operation, fetch&cons, sticky byte

> 根据层次结构,即使在 2 进程系统中,读 /写寄存器也无法解决一致性问题。栈、队列等数据结构只能解决两个进程之间的共识问题。然而,一些并发对象是通用的(在表中用$\infty$),这意味着它们可以解决任意数量的进程之间的共识,并且可以通过操作序列模拟任何其他对象

---
> 除了这种完全舍弃并行的做法以外,既然这个事务性是跟 读取集 写入集 相关联的,那么我当然认为这种事务约束理应由数据库而不是调用者实现。

事实核查:截止 2023 年 1 月,仍然没有 RDBMS 实现了杨博文阁下所提出的这种全新的具有颠覆性的基于 changeset 的事务隔离机制

---

> 另外其实也不是不可以,比方说在 GC 环境下可以这么做:
> ```c
> 指针 全局值;
> 读对象() {
> 指针 临时值 = 原子读取(全局值);
> return 解引用(临时值);
> }
> CAS 对象(对象 expected, 对象 desired) {
> 指针 临时值 = 原子读取(全局值);
> if (对象相等(解引用(临时值), expected)) {
> 指针 临时值 2 = new 对象(desired);
> return 原子 CAS(全局值, 临时值, 临时值 2);
> } else {
> return false;
> }
> }
> ```

您在写`贴吧辅助工具皇帝鸡血神` @bakasnow 最爱的易语言?

---
> 也就是说不修改对象,而是每次都创建新的对象,然后对指针做 CAS

那阁下实际上是在对机器字长 32/64 位的指针做 CAS ,而 CPU 指令集当然会提供能对机器字长长的数据进行 CAS 的指令

> 在 GC 环境下是可行的,在非 GC 环境下则会面临释放时机的问题,还有 ABA 问题 。

为什么这里会有 ABA

> 这个对象可以是任意大的数据结构,比方说可以是一整个 dict 数据结构,只不过为了修改一个值拷贝整个数据结构很容易让它完全丧失性能优势,还不如直接全局加锁。

疑似`新创无际 rust 人生信壬西兔人迺逸夫` @Prunoideae 的内存安全性和 ios 的跨 app share 文件必须完整复制粘贴

> 总之这里只是说不能简单地组合多个窄 CAS 来代替一个宽 CAS 。事实上,之所以处理器通常提供到两倍机器字长的 CAS ,一个主要原因是上述(无锁数据结构)方案,再加上一个额外的整数跟这个指针一同被 CAS ,就需要两倍机器字长的 CAS 。

什么整数?
h0099
2023-01-25 16:22:21 +08:00
@n0099 https://github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401625868

github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401433577

> 但不太能理解的是为什么它一定要让其它事务阻塞等待,而不是先返回不可靠的`SELECT`结果,如果有冲突的话再让`COMMIT`失败,整个事务被`ROLLBACK`,而且`截至 COMMIT 成功之前调用者必须把 SELECT 结果视为不可靠的,不能当真`呢?

github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401199725 早已做出循环论证:
> 因为 COMMIT 本就极少会产生错误( stackoverflow.com/questions/3960189/can-a-commit-statement-in-sql-ever-fail-how

`如果有冲突的话再让 COMMIT 失败`中的冲突是指`INSERT`还是`SELECT`造成的?`INSERT`时 github.com/n0099/TiebaMonitor/issues/32#issuecomment-1401199725 早已道明:
> 对于 mysql ,如果`线程 2INSERT 行 a`时数据库层发现这违反了`UNIQUE 约束`(因为`线程 1`已经这么做了),那么在此时就会返回错误并静默地`ROLLBACK`事务而不是等到`COMMIT`时再这么做

而`SELECT`如何冲突?

从实用角度讲数据库用户期望的是获取可靠的值,但却拿到了不可靠的值,那用户该如何进行后续的假设?
并且理论上如果用户要的就是不可靠值那他应该可以通过往`SELECT`追加`FOR SHARE`来做到这一点:
github.com/n0099/TiebaMonitor/issues/32#issuecomment-1399331576
> > 这里还值得注意的是,不同事务可以在间隙上持有冲突锁。例如,事务 A 可以在一个间隙上持有一个共享间隙锁(间隙 S 锁),而事务 B 在同一间隙上持有一个独占间隙锁(间隙 X 锁)。允许冲突间隙锁的原因是,如果从索引中清除记录,则必须合并不同事务在记录上持有的间隙锁。
> > 间隙锁 InnoDB 是“纯粹抑制性的”,这意味着它们的唯一目的是防止其他事务插入间隙。间隙锁可以共存。一个事务获取的间隙锁不会阻止另一个事务在同一间隙上获取间隙锁。共享和排他间隙锁之间没有区别。它们彼此不冲突,并且它们执行相同的功能。
>
> 这应该暗示了`SELECT ... WHERE uniq > 1 FOR SHARE`( gap IS )可以与`SELECT ... WHERE uniq > 1 FOR UPDATE`( gap IX )同时执行

---
> 虽然`TRANSACTION`中的不同语句可以间隔任意久的时间,但数据库引擎对于开着的`TRANSACTION`肯定是要保持某些状态记录的

也就是 mysql 默认事务隔离级别`REPEATABLE READ`下需要对每个事务每个`SELECT`所读到的每一行都做缓存(被称作 SNAPSHOT ) dev.mysql.com/doc/refman/8.0/en/innodb-consistent-read.html
这也是其他使用 MVCC 的 RDBMS 实现 ANSI SQL 中要求的 4 个事务隔离级别之`REPEATABLE READ`的常规做法 http://mbukowicz.github.io/databases/2020/05/01/snapshot-isolation-in-postgresql.html www.postgresql.org/docs/current/transaction-iso.html

---
> 那么它完全可以做成为每个`TRANSACTION`记录 读取集 和 写入集 ,仅当从`START TRANSACTION`到`COMMIT`之间读取集未曾和其它事务的写入集发生重合时才允许`COMMIT`成功,否则要求调用者退回`START TRANSACTION`重来而且先前的`SELECT`结果必须不作数。

然而问题在于`REPEATABLE READ`顾名思义只协调了`SELECT`,他对`INSERT``UPDATE`顶多有阻塞(如果使用了`SELECT ... FOR UPDATE`导致`IX 锁`)而不会出于其他事务已经`INSERT/UPDATE`了本事务此前`SELECT`的行就拦截两个事务中的某一个(而阁下要的是两个事务都`ROLLBACK`)

---
> 但这种原理应该是首先出现在数据库领域当中,后来才启发了 CPU 设计者设计类似原理的 CPU 指令的。只是我不知道具体哪个数据库的哪种操作允许这样,而不是采用锁和等待

我局的是`奥利金德 rust 头子 LG 神` @LasmGratel 最爱的 pgsql 所采用的 en.wikipedia.org/wiki/Multiversion_concurrency_control (然而 mysql innodb 也是 MVCC ,很明显 MVCC 也只是一个抽象概念,而 RDBMS 们滥用他只是为了方便实现`REPEATABLE READ`)

---
> 但在数据库的情况当中,一个事务的时间跨度长得多,单个或几个线程始终得不到进展是个更现实的问题

最容易遇到的还是死锁,其次是这种活锁,并且 mysql 无法主动检测出一直有多个事务在争夺同一资源(行集合)并介入其中(比如暂时把资源改成[serializability]( en.wikipedia.org/wiki/Serializability)的以便让事务们缓缓通过),除非阁下愿意像老 DBA 那样 247 高强度盯着 netdata 收集的 metrics 然后手动分析
![image]( user-images.githubusercontent.com/13030387/214255699-71e2b4a1-9b2f-47ac-b8d9-97b8d34e1dd9.png)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/908047

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX