sampeng

sampeng

V2EX 第 19005 号会员,加入于 2012-04-02 14:39:20 +08:00
今日活跃度排名 7031
根据 sampeng 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
sampeng 最近回复了
2 小时 46 分钟前
回复了 hongzx 创建的主题 职场话题 该不该去新公司
光一个双休就多了 2 天休息。
也就是多了 2/20 天的隐形工资不算了。。10%呢。。是不是一算比例还挺可观
niz 还是很香的
分治法反而是成本最低的。并没限制时间一定要用最快时间。要加快磁盘吞吐也有很多办法。
说的好像上了 k8s 后就不要 100G 内存一样。。。。

合理方式是:合并微服务。java 的项目。你微服务越多,内存浪费越多。99%的项目,不需要拆他 5-60 个微服务。

合并一半就节省一半云成本。。。
1 天前
回复了 wh469012917 创建的主题 云计算 阿里云的技术售后,真的是一言难尽
但有一说一,云服务的 support 都那样。除非是他服务有问题。一般情况我都不找。没意义
1 天前
回复了 wh469012917 创建的主题 云计算 阿里云的技术售后,真的是一言难尽
所有云都是这样。aws/阿里云。当你企业到一个级别,有专属 BD 后。基本是分钟级回复。如果再上一个级别,比如 aws business support 。让他给你看代码有没什么问题都行。

免费的,能解决问题就 ok 。不用强求那么多。

大家都是研发,技术文档是个什么水平,大家都心里有数。。强求也没用
如果你能劝说公司推广一个 AI 工具。不考虑钱的问题的话。版本答案:copilot
这是唯一解。
我也是想多了。。哪有这么复杂。

读一条。算 hash 。然后读下一条,算下一条的 hash 。相同就扔掉。。。没有相同的就写到另一个文件里面去。一个递归好像就完事了。这应该也是 sort|uniq 的逻辑。只需要内存 (每行 byte *2 )。这就是纯粹比 ssd 的速度。想加速就是利用 cpu 的并行运算搞搞分块就好了。
这么点数据就要 spark ,mr 了?
楼上很多说的没错啊。。你倒是试试 sort |uniq 之后看看结果啊。慢是肯定慢,但是试试不比你纠结强。。

=====

rocksdb 是一个解决方案。但如果不想上东西自己算也不是不行。自己构建结构体和硬盘文件内映射关系。hash 一定要在内存里面才能对比?在文件里面就不行么。现在都是 ssd ,随机读取没啥吧。

我猛的一想就是

1.hash 直接建在硬盘上。每次对比用 seed 偏移来查找。这种业务使用最好别用布隆,毕竟不是近似求结果。而是最终求结果。

2.6T 文件。内存里只建一个够 N 条的 hash 。先读 N 条。计算 N 条里的没有重复的。保存到文件 a 。然后一直递归下去。得到 n 个小文件。然后问题就变成了 n 个小文件去重的问题。内存大,就把第一个文件读出来,去其他文件一个一个比。以此递归处理。当然,连小文件都不需要,自己规划好数据结构把 6T 文件看成 n 个小文件也是一个逻辑。这个逻辑下哪怕 1G 内存也能算出来。就看时间了。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5007 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 08:44 · PVG 16:44 · LAX 01:44 · JFK 04:44
Developed with CodeLauncher
♥ Do have faith in what you're doing.