使用 clickhouse 遇到的一个奇怪问题

2023-02-07 21:11:12 +08:00
 wangshouh

我使用 Clickhouse 进行 JSON 数据清洗,代码如下:

SELECT *
FROM
(
WITH JSONExtract(
	field, 
	'Tuple(transactions Nested(hash String, blockNumber String, value String, logs Nested(address String, data String, topics Array(String))))'
) AS parsed_json
SELECT 
	untuple(arrayJoin(tupleElement(parsed_json, 'transactions'))) as tx
FROM
	jsonTemp jt
LIMIT 5
)
LEFT ARRAY JOIN `tx.4`;

查询结果如下:

我使用以下代码创建了表:

CREATE TABLE logsTemp
(
	txHash String,
	txblockNumber String,
	value String,
	txlogs Tuple
	(
		address String,
		txlogsData String,
		topics Array(String)
	)
)
ENGINE = MergeTree
ORDER BY txblockNumber

使用以下代码执行插入操作:

INSERT INTO logsTemp 
SELECT * 
FROM 
(
  SELECT *
  FROM
  (
    WITH JSONExtract(
      field, 
      'Tuple(transactions Nested(hash String, blockNumber String, value String, logs Nested(address String, data String, topics Array(String))))'
    ) AS parsed_json
    SELECT 
      untuple(arrayJoin(tupleElement(parsed_json, 'transactions'))) as tx
    FROM
      jsonTemp jt
  )
  LEFT ARRAY JOIN `tx.4`
)

结果发现插入后 txlogsData 缺失,如下:

此处使用 Clickhouse 处于单机部署状态,版本为 22.13.1.1942

825 次点击
所在节点    问与答
1 条回复
wangshouh
2023-02-08 09:59:12 +08:00
想办法自己解决了,怀疑是 `tuple` 的问题,所以在插入时进行了 `untuple` 操作,修正后的代码如下:

```sql
INSERT
INTO
logsTemp
SELECT
`tx.1`,
`tx.2`,
`tx.3`,
untuple(`tx.4`)
FROM
(
SELECT
*
FROM
(
WITH JSONExtract(
field,
'Tuple(transactions Nested(hash String, blockNumber String, value String, logs Nested(address String, data String, topics Array(String))))'
) AS parsed_json
SELECT
untuple(arrayJoin(tupleElement(parsed_json,
'transactions'))) as tx
FROM
jsonTemp jt
)
LEFT ARRAY
JOIN `tx.4`
)
```
但仍不明白为什么 tuple 会导致数据列丢失

![]( )

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/914065

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX