我们很高兴地宣布推出 Data Wrangler ,这是一款面向使用 Python 处理表格数据的数据科学家和分析师的革命性工具。Data Wrangler 是VS Code Insiders版本的扩展,也是我们实现简化和加快 Microsoft 平台上的数据准备过程愿景的第一步。
数据准备、清理和可视化对于许多数据科学家来说是一项耗时的任务,但通过 Data Wrangler ,我们开发了一种简化此过程的解决方案。我们的目标是让每个人都能更轻松、更高效地使用此过程,从而腾出时间专注于数据科学工作流程的其他部分。今天要试用 Data Wrangler ,请转到 VS Code Insiders 中的扩展市场选项卡并搜索"Data Wrangler"。要了解有关 Data Wrangler 的更多信息,请查看此处的文档:https://aka.ms/datawrangler。
使用 Data Wrangler ,您可以在VS Code Insiders中无缝清理和探索您的数据。它提供了多种功能,可帮助您快速识别和修复错误、不一致和丢失的数据。您可以执行数据剖析和数据质量检查、可视化数据分布,并轻松将数据转换为您需要的格式。此外,Data Wrangler 附带一个内置转换和可视化库,因此您可以专注于数据,而不是代码。当您进行更改时,该工具会使用开源 Python 库为您执行的数据转换操作生成代码。这意味着您可以更快地编写更好的数据准备程序并减少错误。该代码还使 Data Wrangler 保持透明,并帮助您随时验证操作的正确性。
在最近的一项研究中,使用 Pandas dataframe 库的 Python 数据科学家报告说他们花费了大部分时间 (~51%) 来为他们的模型准备、清理和可视化数据(Anaconda State of Data Science Report 2022)。这项活动对他们项目的成功至关重要,因为数据质量差会直接影响他们模型做出的预测的质量。此外,这种活动是不可预测的:业界甚至称其为_探索性数据分析_捕捉这样一个事实,即它通常具有高度创造性,需要实验、可视化、比较和迭代。然而,尽管活动具有创造性和迭代性,但单个操作却不是——它们涉及编写删除列、删除缺失值等的小代码片段。但是今天没有工具支持可以使它变得更容易;在我们与数据科学家的研究中,我们经常看到他们从 Stack Overflow 搜索代码片段并将其复制粘贴到他们的程序中。
借助 Data Wrangler ,我们开发了一个交互式 UI ,可以为您编写代码。当您使用 Data Wrangler 检查和可视化 Pandas 数据帧时,为您所需的操作生成代码很容易。例如,如果你想删除一列,你可以右键单击列标题并将其删除,Data Wrangler 将生成 Python 代码来执行此操作。如果您想删除包含缺失值的行或用计算出的默认值替换它们,您可以直接从 UI 执行此操作。如果您想通过单热编码来重新格式化分类列以使其适合机器学习算法,您可以使用一个命令来完成。
数据科学家通常需要从他们的 Pandas 数据框中的现有列创建一个新的派生列,这通常涉及编写很容易成为错误来源的自定义代码。使用 Data Wrangler ,您需要做的就是提供示例,说明您希望派生列中的数据看起来如何,而我们的 AI 驱动程序合成技术PROSE(与支持 Microsoft Excel 的 Flash Fill 功能的技术相同)将为您编写 Python 代码。如果您在结果中发现错误,您可以使用新示例进行更正,PROSE 将重写 Python 代码以产生更好的结果。您甚至可以自己修改生成的代码。
要立即在Visual Studio Code Insiders中开始使用 Data Wrangler ,只需从市场下载 Data Wrangler 扩展并访问我们的入门页面进行试用!然后,您可以从 Jupyter Notebook 中的任何 Pandas 数据帧输出启动 Data Wrangler ,或者通过右键单击 VS Code 中的任何 CSV 或 Parquet 文件并选择"Open in Data Wrangler"。
这是 Data Wrangler 的第一个版本,因此我们在迭代产品时正在寻找反馈。请在此处提供任何产品反馈。如果您遇到任何问题,请在我们的 Github 存储库中提交错误报告。我们的计划是在不久的将来将扩展从 VS Code Insiders 转移到 VS Code 。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.