将任务分配给其他线程处理,使用哪种方式更优

2021-08-01 13:12:52 +08:00
 git00ll

任务

一个含有一千万字符串的集合,期望计算每个字符串的 md5 值。并打印出来,不考虑顺序。

分析

这是一个 cpu 密集型操作,如果使用单线程做效率不高,在四核机器上准备开启四个线程做

方案一

将集合分成四个子集合,每个线程分配一个子集合,for 循环操作

方案二

使用 queue 存储字符串,每个线程从 queue 中获取取单个字符串,操作后再读取下一个。

想要验证的结果

如果当前有很多 cpu 密集型的小任务,使用多线程时,是每次获取一个(就像线程池读取任务执行那样),还是每次读取一批。哪种更好一点,还是说没有啥差别。

从线程切换,以及 java 中内存模型,对象引用 角度分析

补充

下面这段话是从网上拷贝的,是不是说明方法一一次性传递多个任务到另一个线程更优呢,这样的话这两个线程之间同步的对象应该只有集合本身,而不包含集合内的对象吧???

JMM 模型下的线程间通信:
线程间通信必须要经过主内存。

如下,如果线程 A 与线程 B 之间要通信的话,必须要经历下面 2 个步骤:

1 )线程 A 把本地内存 A 中更新过的共享变量刷新到主内存中去。

2 )线程 B 到主内存中去读取线程 A 之前已更新过的共享变量。

2515 次点击
所在节点    Java
14 条回复
MakHoCheung
2021-08-01 13:17:48 +08:00
parallstream 或者自己写 forkjoin,forkjoin 复杂
chendy
2021-08-01 13:24:18 +08:00
parallstream +1
sagaxu
2021-08-01 13:25:23 +08:00
先测一下单线程要几秒,不够再优化
limbo0
2021-08-01 13:27:39 +08:00
像流处理和批处理, 第一种应该更快, 第二种单条处理吞吐注定不会太高
Building
2021-08-01 13:32:43 +08:00
每个字符串标记一个 State,每个线程每次取出 State 为等待处理的第一个字符串同时标记为处理中,直到任一线程取不到 State 为等待处理的字符串。
sagaxu
2021-08-01 13:38:04 +08:00
在乎性能就不要用字符串了,你从 bytes 解码成 string 的时间,已经够算出来 md5 了,字符串算一次 hashcode 的时间也够算 md5 了
v2byy
2021-08-01 18:10:54 +08:00
@Building 直接从一个区间取不行么,就说楼主说的方案一
wangxn
2021-08-01 19:04:20 +08:00
照理来说,因为 CPU 缓存的存在,方案一应该会有巨大的优势。这种处理方式叫提升 locality 。
akira
2021-08-01 20:06:58 +08:00
方案 1,简洁名了。
jorneyr
2021-08-02 08:22:38 +08:00
一个字符串应该只有一个 MD5 值,你的这个设计,变成了一个字符串可以有很多不同的 MD5 值。
rayw0ng
2021-08-02 09:05:58 +08:00
两个方案都不实现,一测便知。我猜方案一,毕竟不需要加锁。
aneostart173
2021-08-02 10:19:22 +08:00
用 mpi 啊。
cubecube
2021-08-03 10:19:00 +08:00
瓶颈应该在读取文件 io 和日志。具体得看负载情况,没有定论。
liian2019
2021-08-03 20:41:36 +08:00
fork join

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/792974

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX