“data cleaning”指数据清洗/数据清理:对原始数据进行检查与处理,修正或删除错误、重复、缺失、不一致的数据,并将格式统一,使数据更适合分析与建模。(也常写作 data cleansing,含义基本相同。)
/ˈdeɪtə ˈkliːnɪŋ/ (也常见 /ˈdætə ˈkliːnɪŋ/)
I spent the morning doing data cleaning.
我花了一上午在做数据清洗。
Before we trained the model, we performed data cleaning to remove duplicates, fix inconsistent dates, and handle missing values.
在训练模型之前,我们进行了数据清洗:去除重复记录、修正不一致的日期,并处理缺失值。
“data”来自拉丁语 datum(“给出的东西”),后发展为“资料/数据”;“cleaning”来自古英语 clǣne(“干净的”)及其动词形式。组合成“data cleaning”这一术语后,在统计学、数据库与数据科学语境中专指“把数据变得可用、可靠的整理过程”。