V2EX › wxf666 的所有回复 › 第 9 页 / 共 34 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 5 6 7 8 9 10 11 12 13 14 ... 34

❮

❯

223 天前

回复了 wangpugod2003 创建的主题 › 程序员 › 讨论一道面试题啊(take home task)

@WoodsGao #27 题目的原文件，应该是十进制字符串吧。。

就算是二进制数据，也应该是 8 字节，俩 int32 呀。。

https://i.imgur.com/krir4IG.png https://i.imgur.com/krir4IG.png

224 天前

回复了 wangpugod2003 创建的主题 › 程序员 › 讨论一道面试题啊(take home task)

@wangpugod2003 #2 楼主，我突然对你的 10GB 文件感兴趣。。

假设你 10GB 二十亿条，那平均每条 (10 << 30) / 2e9 = 5 字节，

去除空格、换行 2 字节，还剩 3 字节，你是怎么存得下 10 位数的 ID ，和几位数的 value 呢？

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

224 天前

回复了 wangpugod2003 创建的主题 › 程序员 › 讨论一道面试题啊(take home task)

@wxf666 #5 等会儿，我以为是，求出现最多次数的 ID 了。。

那你这个算法，应该没问题的呀？

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

224 天前

回复了 wangpugod2003 创建的主题 › 程序员 › 讨论一道面试题啊(take home task)

极端情况下，每个 ID 只出现一次，

你是要在内存里，保留整个几百 GB 的 ID 吗？

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

224 天前

回复了 bthulu 创建的主题 › 数据库 › 上万条数据, 短时间内连续查询几千次, 是数据库查, 还是内存查更好一点?

@bthulu #3 键是宽度值，值是（库存 ID/引用/指针/…）数组？

或者，你也模仿数据库的底层存储结构，内存里也用 B 树存储呗。。

224 天前

回复了 bthulu 创建的主题 › 数据库 › 上万条数据, 短时间内连续查询几千次, 是数据库查, 还是内存查更好一点?

全读出来，存到 HashMap 里，不也相当于有索引了吗？

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

226 天前

回复了 ComplexPug 创建的主题 › 程序员 › 关于一个经典海量数据的问题

@ComplexPug #11

1. 噢，说错了，是 2048 长度的哈希表《数组》。https://i.imgur.com/krir4IG.png

2. 感觉你是想说，计算完一个文件后，就分别把 2048 个哈希表里的频率统计，追加到 2048 个文件里？

计算完所有文件后，再挨个频率文件，计算总频率，且始终只保留频率前 100 的字符串？

感觉这方法是准确的，但极端情况下，频率文件 > 内存限制时，会爆内存。

比如，所有字符串只出现一次，原文件大小 / 2048 > 内存限制了。。

或者，被恶意构造字符串了，使得所有 str.hash() % 2048 后，都挤在同一个文件内。。

226 天前

回复了 ComplexPug 创建的主题 › 程序员 › 关于一个经典海量数据的问题

@ComplexPug #9

假设你是单线程，计算完第一个文件里，每个字符串次数后，

你要对那 2048 长度的哈希表，做什么呢？

1. 啥也不干，继续算第二个文件？

（若原文件，每个字符串只出现一次，那你不就相当于在内存里，保留整个原文件了吗。。）

2. 遍历哈希表的，2048 个子哈希表，丢弃 100 名外的？

（若原文件，每个字符串出现两次，唯独一个字符串，出现 2048 次，但分散在每个分割后的文件里。岂不是会被你，每次遍历完一个文件后，丢弃掉？）

3. 我理解错了，等待你补充。。

226 天前

回复了 moqsien 创建的主题 › 推广 › 🔥昨晚写的一个 go 编译增强小工具，旨在提高跨平台编译效率，省去编写脚本的麻烦。

为啥现在 Go ，不支持 Win8.1- 了呢。。

会不会明年 Win10 支持服务结束后，也只能跑在 Win11+ 上了呢。。

https://i.imgur.com/krir4IG.png https://i.imgur.com/krir4IG.png

226 天前

回复了 BadFox 创建的主题 › Windows › 忍不了了，微软怎么天天在我的电脑里拉屎搞弹窗？

@sudosu #43 微软不要它口碑了吗？

驱动都是要微软认证，才能运行的呀？

怎么系统设计，就不经微软允许了呢？

难道这只是驱动签名收费的一个由头借口？

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

227 天前

回复了 ComplexPug 创建的主题 › 程序员 › 关于一个经典海量数据的问题

@ComplexPug #7 关于第二个问题：

1. 直观上说，每个字符串都只出现一次，最后取哪 100 个字符串呢？

2. 假如说，题目保证肯定有 100 个字符串，出现次数最多。

那如果，我这样构造原始文件呢：

你分割的前 2047 个小文件里，所有字符串都只出现一次，
在第 2048 个文件里，100 个字符串出现两次。

你在构造哈希表，甚至每个分组统计 TopK 时，会不会要在内存里，保留几乎整个原始文件的字符串了？

那内存会不会爆炸了。。

227 天前

回复了 Joshuahui 创建的主题 › Windows › EXCEL 后台打开一个带有宏的空表格，并阻止关机

Excel 不是默认不运行宏的吗？ https://i.imgur.com/F29pmQ6.png

227 天前

回复了 BadFox 创建的主题 › Windows › 忍不了了，微软怎么天天在我的电脑里拉屎搞弹窗？

@sudosu #2 驱动都要微软认证才能用，怎么系统就能任由某团队放飞自我了呢？

227 天前

回复了 h3xz 创建的主题 › 程序员 › c++对大量图片进行序列化和反序列化

@h3xz 不知道你是怎么存的。我写个示例，你按情况改了后，执行看看？

1. 准备 SQLite 环境

原因：
① 不想在这儿写 C/C++，太冗长。
② 后文的脚本，需要用到 dll 没有的，仅命令行版本才有的 readfile 函数。

步骤：
① 打开 https://sqlite.org/download.html
② 找到 sqlite-tools-win-x64-3450200.zip （当前版本）并下载（若 Linux/MacOS 找对应平台的）
③ 解压，得到 sqlite3.exe

2. 准备（存数据的） SQL 文件

参考以下内容，按你自己情况更改后，用 UTF-8 编码，保存为 test.sql 。

```sql
-- 把默认页大小 4KB 改为 64KB 。因为你大部分数据都很大，一次读取便加载更多数据，能提速
PRAGMA page_size = 65536;

CREATE TABLE image (
id INTEGER PRIMARY KEY,
-- 假设你通过名字来定位图片及其他数据。UNIQUE 既创建了索引，也保证名字唯一
name TEXT NOT NULL UNIQUE,
-- 注意，默认生成的时间，是 UTC 时间，比中国慢 8 个小时
created_at DATETIME NOT NULL DEFAULT CURRENT_TIMESTAMP,
extra_data JSON,
data BLOB NOT NULL
);

BEGIN;
-- 省略 id ，SQLite 则会自动填写为最大 ID + 1 。
-- 单引号内的 \ 不用转义。若要表示 '，双写即可。如 'Kai''Sa.jpg'。
-- 文件路径不要包含中文，因为 SQLite 会把 UTF8 字符串，原样调用系统 API ，然而 Windows 会以为是 GBK 编码。。
-- 如果文件路径一定包含中文，请保证其它字符串（如 name 列）没有中文，然后 SQL 文件转为 GBK 编码。
INSERT INTO image (name, data) VALUES ('aaa.jpg', readfile('C:\aaa.jpg'));
INSERT INTO image (name, data) VALUES ('bbb.jpg', readfile('C:\bbb.jpg'));
INSERT INTO image (name, extra_data, data) VALUES ('ccc.jpg', '{"width": 123, "height": 456}', readfile('C:\ccc.jpg'));
COMMIT;

-- 可选：碎片整理数据库文件，并去除冗余空间，达到瘦身紧实的效果。
-- VACUUM;

SELECT printf('写入了 %d 个文件，共 %d 字节。', COUNT(*), SUM(LENGTH(data))) FROM image;
```

3. 执行

```shell
sqlite3.exe images.db < test.sql
```

228 天前

回复了 Curiosity777 创建的主题 › Java › 请教一个不断增长的数据统计问题

你放一下表结构，和你当前怎么查数据的 SQL 呗。。

11W 数据。。感觉 SQLite 单线程都能很快啊。。至于 8 线程么。。

228 天前

回复了 drymonfidelia 创建的主题 › 数据库 › MySQL 两亿条数据的表用索引也要 1 秒才能查出结果，还有办法优化吗？

@drymonfidelia 噢，漏了一些东西。

你的 record_query_IDX 索引，没有 type 。。

那就建个 (query, record_id, type) 的索引？

然后 SQL 是 select record_id, type FROM qcs.records x WHERE `query` = "DEMOQUERY1111" ORDER BY record_id DESC;

后续参考上一楼。

228 天前

回复了 drymonfidelia 创建的主题 › 数据库 › MySQL 两亿条数据的表用索引也要 1 秒才能查出结果，还有办法优化吗？

@drymonfidelia 你 type IN (...) 少的时候，是不是能快些？

若是，我猜是 MySQL 去匹配不同范围的次数太多了。

如果你要的数据，都比较集中在最新添加的几天内，那么只使用一个范围，应该能提速很多。

假设你的 record_id 越大，created_at 也越大。

则可以：select record_id FROM qcs.records x WHERE `query` = "DEMOQUERY1111" ORDER BY record_id DESC;

这会使用你的 record_query_IDX 索引。

接着，你在程序内，一条条读取，直到 (1,2,4,7,2510,27442,440097,800022) 的 type 全部有数据为止。

最后，再根据得到的 record_id 集合，去主表拿整行数据。

228 天前

回复了 ComplexPug 创建的主题 › 程序员 › 关于一个经典海量数据的问题

@ComplexPug 有些极端情况，咋办呢？

1. 只有俩 500GB 的不同的字符串，但它们 hash 相同。
2. 所有字符串，都只出现一次。

228 天前

回复了 h3xz 创建的主题 › 程序员 › c++对大量图片进行序列化和反序列化

@h3xz 那就存 SQLite 数据库呗。。

优点：

- 单文件
- 可随机读写
- 依赖库只有几百 KB
- 有原生 C/C++ 接口
- 可存一系列数据（编号、日期、数据、图片文件本身、……），单个数据最大 2GB

写了 10GB 共 2500 条数据（每条包含 4MB 图片及数据），
再测试下，随机读取图片速度（测试前，已用 RamMap 清空系统文件缓存）：

- 机械盘：27 条数据/秒（ 150 MB/s 顺序读取，0.65 MB/s 随机 4K 读取）
- 内存盘：323 条数据/秒（ 6754 MB/s 顺序读取，310 MB/s 随机 4K 读取，感觉明显没吃满 IO ）

228 天前

回复了 DTCPSS 创建的主题 › FFmpeg › 把歌曲压缩至 7 kbps， FFmpeg 之父发布音频压缩工具 TSAC

手机上的播放器，能播放吗？

比如 PowerAMP 啥的？

MP3 随身听之类的呢？

1 ... 5 6 7 8 9 10 11 12 13 14 ... 34

❮

❯