EN

Eric Cao

代码写久了,会开始追问系统为什么这样设计

做过大数据工程师,转过 Python 全栈,写过 LLM 应用。但真正让我着迷的,从来不是技术本身,而是:这套系统为什么这样设计,它在什么地方会悄悄出错,以及——人类应该把什么样的活儿交给它,才不会后悔。

01. 关于

第一份工作是大数据工程师——那段经历塑造的不是某项具体技能,而是一套看系统的方式:规模大到一定程度,「小问题」会变成「根本问题」。你以为是性能问题,扒开来是数据质量;你以为是逻辑问题,根在数据模型的设计。这种「往深一层想」的工程直觉,后来在我做的每一件事里都留下了印记。

后来转向 LLM 应用——这是工程直觉第一次被完全颠覆的时刻。传统软件的 bug 会报错;LLM 的「bug」是幻觉,它看起来对,然后你发现是错的,而且没办法用测试捕捉它。性能不是延迟,是召回率,是那种没有标准答案的东西。读懂一个 AI 系统,需要一套完全不同的工程直觉。

现在我花大量时间在弄清楚一件事:AI 落地的真正瓶颈在哪里。结论有点反直觉——不是模型不够强,是流程没标准化。把 AI 嵌进一个没有清晰输入输出的工作流,往往只会放大原有的混乱。MIT 和 McKinsey 的研究反复指向同一个结论,我在自己参与的项目里也验证过:AI 能产生可量化回报的地方,几乎都是「先把流程理清,AI 再渐进介入」——而不是反过来。

02. 经历

专注 AI 工程化落地

2026 — 至今

企业 AI 落地 · 工作流改造

读源码,开 PR,也追问设计决策背后的权衡。企业 AI 真正的难题,藏在框架的实现细节里,不在 PPT 里。

AI Agent Claude Code Workflow

Python & 全栈开发者

2023 — 2025

全栈开发 · LLM 应用

从传统软件走进 LLM 应用的那个节点,是工程直觉第一次被逼着全部重建的时刻。

Python TypeScript LLM React

大数据工程师

2021 — 2023

即刻 Jike

在即刻,规模迫使你往深处看——你以为是性能问题,扒开来是数据质量;你以为是逻辑问题,根在数据模型的设计。

Big Data Java Data Pipeline
03. 项目

Airflow 扩展 API 插件——通过 CLI 命令封装 RESTful API,支持 Airflow v2.X。让 DAG 管理更灵活,运维操作更便捷。

Python Airflow REST API CLI

一键测速切换 pip & uv 镜像源。智能识别运行环境,自动选择最快的镜像站,解决国内包下载慢的问题。

Python CLI Networking

简洁的 Mermaid 图表编辑器——开箱即用,无需登录,实时预览,一键导出 PNG/SVG,支持手绘风格。

图表教程 →
TypeScript React Mermaid Canvas
04. 思考

Agent 落地实战

不空谈概念、不堆砌 API 调用教程,聚焦 AI Agent 在真实工作流里的落地痛点。从单一场景验证到稳定复用的完整过程,探讨长周期任务的稳定性控制、多工具调用的流程设计、业务场景的深度适配。

2025年3月

大数据工程实践

不做教科书式的概念搬运,聚焦真实业务场景里的大数据链路搭建、优化与落地。分享数据从采集、清洗、存储到分析应用的全流程实践,让数据体系真正支撑业务决策与 AI 应用。

2025年3月

系统与链路性能优化

不空谈理论参数,聚焦端到端的全链路性能调优。从代码逻辑的精简、架构设计的优化,到数据链路的提速、服务响应的压测与调优,在快速迭代中守住系统的稳定与高效。

2025年3月

工具的本质

好的工具应该像空气——存在时感觉不到,缺失时立刻发现。不追逐技术热点,只打磨真正解决问题的东西。工具的价值不在于它有多复杂,而在于它让使用者多省心。

2025年3月

自动化工作流提效

不分享零散的工具插件,聚焦「如何用 AI 与自动化,把重复劳动彻底清零」。拆解从需求到落地的全流程提效方案,让 AI 成为真正的效率杠杆,而不是只会写代码的打字机。

2025年3月
05. 博客
AI 能像实习生一样,自己越用越聪明吗?

Hermes Agent 主打「the agent that grows with you」——像个会自己成长的实习生。我把这句话当真了:模型一个权重都不动,全靠它自己攒 skill,真能越用越聪明吗?答案有点反直觉——一条人写的好 skill 能让同一个模型从 10% 的做对率涨到 74%,但让它自己写一条,连一半差距都补不上。

2026-06-12
每次提交只写 2 个文件:lakeFS 是怎么给数据湖装上 Git 的

ETL 写坏了几万个 parquet 文件,你打开 S3 桶却发现——没有 commit、没有回滚,被覆盖的对象永远找不回来了。这篇文章拆开 lakeFS Graveler 的设计:一棵两层 Merkle 树加上基于哈希的分块,如何让十亿文件规模的每次提交只写 2 个新文件、99% 的内容原地复用——以及它和区块链共享了同一套数学,目标却截然相反。

2026-06-08
OpenClaw 还不是答案:写在一周烧完 3 亿 Token 后

深度体验 OpenClaw 一周、烧完 3 亿 Token 后的结论:问题不是 AI 不够聪明,而是纯自然语言交互在执行型任务中存在根本缺陷。用四种交互模式分析「谁来消化歧义」这个核心问题。

2026-03-10