Claude Code 与数据管道：ETL、数据清洗和分析任务

数据工程师用 Claude Code 的方式和应用工程师不同。数据任务的特点是：一次性的多、规则复杂但不标准、结果需要验证。

快速探索新数据集：

claude "我有一个 CSV 文件（data.csv），
先告诉我它的结构，然后：
1. 有哪些字段，类型是什么
2. 有多少行，有没有重复行
3. 各字段的空值比例
4. 数值字段的基本统计（均值、中位数、异常值）
5. 字符串字段里最常见的值

用 pandas，输出 Python 脚本，最后打印摘要。"

数据清洗规则的生成：

claude "分析这份用户数据（user_export.csv），
发现并修复数据质量问题：

常见问题：
- 手机号格式不统一（+86、86、0开头）
- 邮件地址大小写不一致
- 日期格式混乱（MM/DD/YYYY vs YYYY-MM-DD）
- 姓名里有多余空格

生成 pandas 清洗脚本，每个规则单独一个函数，
方便后续调整。"

SQL 查询生成和优化：

claude "帮我写一个查询：
表结构在 schema.sql 里。

需求：
- 统计过去 30 天，每个省份的新用户数和首单转化率
- 排除内部测试账号（email 包含 @company.com 的）
- 按转化率降序排列
- 如果某省份没有用户，也要显示（填 0）

数据库：PostgreSQL 15。
先给查询，再分析执行计划是否需要索引。"

数据管道的错误处理：

claude "这是一个每天运行的数据导入脚本（pipeline.py）。
添加健壮的错误处理：
1. 单条记录解析失败时，跳过并记录错误，不中断整个批次
2. 数据库写入失败时，重试 3 次，然后放入死信队列
3. 整体失败率超过 5% 时，停止并告警
4. 生成运行报告：处理了多少条，跳过了多少条，失败了多少条

保持原来的逻辑，只加错误处理层。"

数据对比和验证：

claude "我们做了一次数据迁移。
帮我写脚本，对比新旧数据库的数据一致性：
- 行数是否一致
- 关键字段的汇总值是否匹配
- 随机抽样 1000 条，逐字段比较
- 输出差异报告

新库：PostgreSQL，旧库：MySQL。"

分析结果的自动解读：

claude "这是我的 A/B 测试结果数据（ab_results.csv）。
帮我：
1. 计算统计显著性（p 值）
2. 计算效果量（Cohen's d 或相对提升）
3. 计算所需样本量（事后验证，是否足够）
4. 用中文写一段给非技术人员看的结论

注意：告诉我置信度是多少，不要只说'显著'。"

数据任务里，Claude 最有价值的是帮你快速写出"正确方向"的第一稿，然后你再基于实际数据调整。不要期望它第一次就完全准确——数据质量问题通常需要迭代发现。