JSON Lines

2019-10-27 00:12:36 +08:00
 shaoyaoju

原文: https://blog.shaoyaoju.org/json-lines/

JSON Lines 是一种文本格式,适用于存储大量结构相似的嵌套数据、在协程之间传递信息等。

例子如下:

{"name": "Gilbert", "wins": [["straight", "7♣"], ["one pair", "10♥"]]}
{"name": "Alexa", "wins": [["two pair", "4♠"], ["two pair", "9♠"]]}
{"name": "May", "wins": []}
{"name": "Deloise", "wins": [["three of a kind", "5♣"]]}

它有如下特点:

  1. 每一行都是完整、合法的 JSON 值;采用 \n 或 \r\n 作为行分隔符;
  2. 采用 UTF-8 编码;
  3. 使用 jsonl 作为文件扩展名;建议使用 gzip 或 bzip2 压缩并生成 .jsonl.gz 或 .jsonl.bz2 文件,以便节省空间。

对比

// CSV

id,father,mother,children
1,Mark,Charlotte,1
2,John,Ann,3
3,Bob,Monika,2
// JSON

[
   {
      "id": 1,
      "father": "Mark",
      "mother": "Charlotte",
      "children": 1
   },
   {
      "id": 2,
      "father": "John",
      "mother": "Ann",
      "children": 3
   },
   {
      "id": 3,
      "father": "Bob",
      "mother": "Monika",
      "children": 2
   }
]

对于同样的数据内容,CSV 比 JSON 更简洁,但却不易读。此外,CSV 无法表示嵌套数据,例如一个家庭下全部成员的名字,但 JSON 却可以很容易地表示出来:

{
  "familyMembers": ["JuZhiyuan", "JuShouChang"]
}

既然 JSON 如此灵活,那为何还需要 JSON Lines 呢?

考虑如下场景:一个大小为 1GB 的 JSON 文件,当我们需要读取 /写入内容时,需要读取整个文件、存储至内存并将其解析、操作,这是不可取的。

若采用 JSON Lines 保存该文件,则操作数据时,我们无需读取整个文件后再解析、操作,而可以根据 JSON Lines 文件中每一行便为一个 JSON 值 的特性,边读取边解析、操作。例如:在插入 JSON 值时,我们只需要 append 值到文件中即可。

因此,操作 JSON Lines 文件时,只需要:

  1. 读取一行值;
  2. 将值解析为 JSON ;
  3. 重复 1、2 步骤。 那么如何将 JSON Lines 转换为 JSON 格式呢?下方代码为 JavaScript 示例:
const jsonLinesString = `{"name": "Gilbert", "wins": [["straight", "7♣"], ["one pair", "10♥"]]}
{"name": "Alexa", "wins": [["two pair", "4♠"], ["two pair", "9♠"]]}
{"name": "May", "wins": []}
{"name": "Deloise", "wins": [["three of a kind", "5♣"]]}`;

const jsonLines = jsonLinesString.split(/\n/);
const jsonString = "[" + jsonLines.join(",") + "]";
const jsonValue = JSON.parse(jsonString);

console.log(jsonValue);

参考

  1. JSON Lines
  2. JSON Lines format: Why jsonl is better than a regular JSON for web scraping
2925 次点击
所在节点    程序员
8 条回复
CEBBCAT
2019-10-27 01:06:52 +08:00
感谢写文介绍,之前都没有听说过,应该是适合日志类的数据吧?看样子只能分拆首层 list,需要和 JSON 结构相配合

个人觉得楼主写了不少冤枉字,同等信息量我觉得三分之二的字就能说明白,还更清晰。一开始还以为是楼主发明了这个结构呢。
CEBBCAT
2019-10-27 01:09:01 +08:00
@CEBBCAT #1 简单来说就是例子举的有点早,要是我我会想简单讲讲结构,再举例子。而且后面那个 family 例子也不够“生动”,children 我差点以为是外键。
CEBBCAT
2019-10-27 01:10:30 +08:00
@CEBBCAT #2 不好意思再追加一下,我觉得直接简单讲讲和 JSON 的区别,优缺点,再上一份代码大家就都明白了。后边代码非常“Show me the code”
optional
2019-10-27 01:31:51 +08:00
但是对于相同数据结构的数据,浪费了大量的字符来表示字段名
nvkou
2019-10-27 07:40:37 +08:00
非杠 但这个场景我估计不会用 json 来传输了
ptyfork
2019-10-27 07:50:35 +08:00
早就开始用这个东西了,而且还不知道已经有人提出来了。
以为自己是第一个人发明的,后来一查原来别人早就在用了,😂,而且还有了详细的文档。
因为 json 用多了,在数据量非常大的时候,想到这个是个非常自然的东西。
AlohaV2
2019-10-27 07:51:52 +08:00
这个跟 BSON 比优势在哪儿呢
momocraft
2019-10-27 10:00:38 +08:00
有壓縮時 field 重複不是大問題

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/613315

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX