数据工程师用 Claude Code 的方式和应用工程师不同。数据任务的特点是:一次性的多、规则复杂但不标准、结果需要验证。
快速探索新数据集:
claude "我有一个 CSV 文件(data.csv),
先告诉我它的结构,然后:
1. 有哪些字段,类型是什么
2. 有多少行,有没有重复行
3. 各字段的空值比例
4. 数值字段的基本统计(均值、中位数、异常值)
5. 字符串字段里最常见的值
用 pandas,输出 Python 脚本,最后打印摘要。"
数据清洗规则的生成:
claude "分析这份用户数据(user_export.csv),
发现并修复数据质量问题:
常见问题:
- 手机号格式不统一(+86、86、0开头)
- 邮件地址大小写不一致
- 日期格式混乱(MM/DD/YYYY vs YYYY-MM-DD)
- 姓名里有多余空格
生成 pandas 清洗脚本,每个规则单独一个函数,
方便后续调整。"
SQL 查询生成和优化:
claude "帮我写一个查询:
表结构在 schema.sql 里。
需求:
- 统计过去 30 天,每个省份的新用户数和首单转化率
- 排除内部测试账号(email 包含 @company.com 的)
- 按转化率降序排列
- 如果某省份没有用户,也要显示(填 0)
数据库:PostgreSQL 15。
先给查询,再分析执行计划是否需要索引。"
数据管道的错误处理:
claude "这是一个每天运行的数据导入脚本(pipeline.py)。
添加健壮的错误处理:
1. 单条记录解析失败时,跳过并记录错误,不中断整个批次
2. 数据库写入失败时,重试 3 次,然后放入死信队列
3. 整体失败率超过 5% 时,停止并告警
4. 生成运行报告:处理了多少条,跳过了多少条,失败了多少条
保持原来的逻辑,只加错误处理层。"
数据对比和验证:
claude "我们做了一次数据迁移。
帮我写脚本,对比新旧数据库的数据一致性:
- 行数是否一致
- 关键字段的汇总值是否匹配
- 随机抽样 1000 条,逐字段比较
- 输出差异报告
新库:PostgreSQL,旧库:MySQL。"
分析结果的自动解读:
claude "这是我的 A/B 测试结果数据(ab_results.csv)。
帮我:
1. 计算统计显著性(p 值)
2. 计算效果量(Cohen's d 或相对提升)
3. 计算所需样本量(事后验证,是否足够)
4. 用中文写一段给非技术人员看的结论
注意:告诉我置信度是多少,不要只说'显著'。"
数据任务里,Claude 最有价值的是帮你快速写出"正确方向"的第一稿,然后你再基于实际数据调整。不要期望它第一次就完全准确——数据质量问题通常需要迭代发现。