Schema-on-read(读时建模/读时定义模式):一种数据处理与数据仓库/数据湖常见做法——数据先以原始或半结构化形式存储,在读取、查询或分析时再按需要解释字段、类型与结构(即“在读的时候套上schema”)。常与 schema-on-write(写时建模)对比。该术语也常用于描述数据湖、日志数据、JSON/Parquet等场景。
/ˈskiːmə ɒn riːd/
We use schema-on-read to analyze raw logs quickly.
我们使用“schema-on-read”来快速分析原始日志。
In a data lake, schema-on-read lets different teams query the same files with different assumptions, but it also increases the need for strong data governance.
在数据湖中,“schema-on-read”让不同团队可以用不同的假设去查询同一批文件,但也更需要完善的数据治理。
该术语由 schema(模式/结构)+ on read(在读取时)组合而成,属于数据工程领域的对比性命名:强调“写入时不强制统一结构,而在消费/查询时再定义结构”。它随着大数据与数据湖实践(如Hadoop生态、日志与事件数据分析)而普及,用来表达“灵活性更高,但对管理与一致性要求更强”的数据策略。