我在 LLM API 调用上花了 50 美元，然后优化到 0 美元。

AI技术与应用 2026-05-20 20:55:49 105

最近折腾 AI 功能，踩了个烧钱的坑——LLM（大语言模型）API 调用的费用。两个月前我的账单突然飙到 50 美元，而我的项目才 100 来个人用。复盘了一下，发现问题不是订阅贵，而是 prompt（提示词）没优化到位。这篇把踩坑和优化思路说清楚。

那个 50 美元的月份

当时用 OpenAI API 做三个简单功能：

用户名提取
邮件主题生成
简单分类

做了哪些改动

1. 优化 Prompt（提示词）

同模型，好 prompt 效果更好。结构清晰、带示例的 prompt 往往能替代更贵的模型。

改前：

Categorize this email: "{subject}"

改后：

Categorize this email into one of: [urgent, follow-up, spam, newsletter]
Example: "RE: Meeting at 3pm" → follow-up
Example: "Free iPhone!" → spam
Now categorize: "{subject}"

效果：同模型，token（令牌）用量减少 40%。

2. 简单任务切到本地模型

分类、提取这类简单任务，换成了：

Ollama + Llama 3.2：本地部署推理
Groq API（免费额度）：线上生产环境用

两个方案处理简单结构化任务，成本接近零。

3. 全面缓存

重复问题直接走缓存。50 个用户问同一件事，一次 API 调用搞定。

# 简单的语义缓存
cache_key = hash(prompt + first_50_chars_of_context)
if cache.exists(cache_key): return cache.get(cache_key)

4. 按任务选模型

不是所有任务都需要 GPT-4o：

任务	模型	成本
简单分类	Groq（免费额度）	$0
结构化提取	Ollama（本地）	$0
长文本生成	GPT-4o mini	$0.002/1K
复杂推理	Claude 3.5 Sonnet	$0.003/1K

结果

优化之后：

API 账单从 50 美元/月降到 8 美元/月
响应速度反而快了（本地模型跑简单任务更迅速）
缓存覆盖了 60% 的请求

想对当时的自己说什么

先用能跑通的最小模型。切模型之前先优化 prompt。增加调用量之前先加缓存。

50 美元/月的问题，通常是 5 美元/月就能解决的问题，只是你还没找到那个解法。

你最大的 AI API 支出是什么？有没有什么优化心得？

原文链接：https://dev.to/...