site logo

Marico's space

最近被 LLM API 账单追杀,缓存成了救命稻草。但接下来问题来了——选精确缓存还是语义缓存?说实话,大多数情况下两个都要,只是用途不同。精确匹配几乎零成本运行,而且绝对不会返回错误答案;但在实际生产环境中命中率可能只有十分之一。语义缓存能捕获几倍的流量,但会引入一个必须正视的正确性风险。这篇把各擅胜场的地方说清楚,背后的数学逻辑也捋一遍,最后给个决策框架。 缓存是 AI API 缓存体系的一
最近折腾移动端 AI Agent(人工智能代理),踩了几个坑,这篇把问题说清楚。 很多人把"移动 AI 助手"和"移动 AI Agent"混着用,其实不是一回事——如果你在上面做开发,区别就大了。 一句话概括:移动 AI 助手响应命令,移动 AI Agent 跨应用、跨上下文、跨工具规划和执行多步骤工作流。执行层是问题最多的地方,也是最难解决的。 核心区别 移动 AI 助手: 用户:"今
最近折腾Redis缓存,踩了几个坑,这篇把问题说清楚。 benchmark永远很好看:接入缓存前平均响应840ms,接入后命中时80ms,整体延迟降低60%,"系统好慢"的工单直接清零。但benchmark不会告诉你的是:为解决数据过期问题花了三天排查、流量高峰时缓存击穿把数据库打挂用了一下午才解开、以及那个在迭代中期被迫重构的缓存key命名方案——当时设计的时候没考虑前缀匹配批量失效的场景。
这周看到几个有意思的进展,顺手整理一下。AI Agent的安全问题、开源代码模型、以及大模型在云平台上的部署,这三个方向最近动静都不小,跟实际工作比较相关,就多看了几眼。 今天的重点 本周重点关注三个进展:一个是针对AI Agent技能的安全扫描工具,一个是小米MiMo Code模型的开源发布,还有OpenAI的GPT-5.5和Codex在亚马逊Bedrock上的正式可用。这些进展给开发者提
最近在给项目做 Livewire 安全审计,踩了几个坑,这篇把问题说清楚。 Livewire 组件里的每个 public 属性都会发送到浏览器。每次都是。Livewire 用来维护状态的快照(snapshot)把每个 public 属性的值都明文塞进了 JSON 里。你的用户能看到它们、修改它们、然后发回到服务器。 大多数 Laravel 开发者从来没想过这个。他们写 public $user
这两年 LLM(大语言模型)和 GenAI(生成式人工智能)火得一塌糊涂,很多团队都在往产品里塞 AI 功能。但说实话,大多数人在数据安全这件事上还没想清楚——先把功能跑起来再说,安全以后再补。这种心态迟早要出问题。这篇把我踩过的坑和总结的经验梳理一下,覆盖输入输出过滤、RAG(检索增强生成)数据最小化、微调数据集清理、密钥管理、运行时监控这些具体实践。 AI 系统的攻击面跟传统软件完全不同。S
最近折腾了 Azure API Management(APIM),踩了几个坑,这篇把生产实践中学到的东西说清楚。 APIM 是一个全托管的网关服务,放在所有后端 API 的前面。外部请求不会直接打到你的原始 API,而是先经过 APIM。它把安全防护、流量限制、数据转换、监控和文档这些事情全部收拢到一个地方。 在 Blue Yonder 的时候,我们用 APIM 作为 SIAM 平台所有集成的
上篇文章《绕过多模态税》我详细讲了怎么把音频处理从云端大模型解耦出来,用本地 STT(语音转文字)和高速文本推理来大幅降低 API(应用程序接口)费用、保证生物特征隐私。成本和规模的问题算是解决了。 但做对话式 AI,还有一个同等重要、却容易被忽视的指标:延迟。做语音助手的朋友应该都体会过那种尴尬——用户说完话后,AI 在后台吭哧吭哧生成 token(文本单元),要等 3 到 5 秒才开始说话。
最近折腾了几个 AI Agent 项目,上线三周后无一例外都出了问题:模型在输出幻觉内容、边界情况处理得一塌糊涂、团队不得不人工审核所有产出。 这是 2026 年最常见的 AI Agent 部署剧情。原因不在模型本身——而是围绕模型构建的系统压根没考虑过生产环境的真实情况。 先说结论:大多数生产环境失败都来自三个根源:在 Agent 还没准备好时就把它当成开放式推理系统使用、跳过高风险操作的人
最近折腾了一个语音AI平台,从零开始搭了30天,最终做到了端到端延迟442ms。这篇把整个架构说清楚,有需要的直接抄。 大多数语音AI教程写到"调用ElevenLabs API"就结束了。 这不是平台,这是个demo。一旦ElevenLabs调价,整个系统说崩就崩。 我花了30天做了Mithivoices——一个开源TTS/STT平台,支持19+种神经网络音色、8种语言(包括印地语、马拉雅拉
共 240 条, 共 24 页