https://github.com/openai/gpt-3/tree/master/dataset_statistics
类别 | 语言 | 数量 | 比例 |
---|---|---|---|
文章数量 | en | 235987420 | 93.68882% |
文章数量 | zh | 292976 | 0.11631% |
字数 | en | 1051665177484 | 92.09864% |
字数 | zh | 1828425488 | 0.16012% |
词数 | en | 181014683608 | 92.64708% |
词数 | zh | 193517396 | 0.09905% |
1
vektor 2023-02-20 19:59:26 +08:00 4
https://raw.githubusercontent.com/openai/gpt-3/master/175b_samples.jsonl
搜样本中的中文有惊喜,简中互联网的含金量 |
2
yuhuan66666 2023-02-20 23:11:35 +08:00
@vektor #1 你说的是 搜了个 “美”字 第三个 嗯 低俗广告 😂
|
3
lambdaq OP @yuhuan66666 蚌埠住了。23333
|
4
lambdaq OP |