site logo

Marico's space

最近折腾了好几个基于 Azure 的微服务项目,踩了不少坑,这篇把生产环境中真正管用的东西和容易翻车的地方都说清楚。 架构图看起来永远很美好,在真实流量冲击之前。 Azure 上的微服务架构承诺独立部署、团队自治、精细化伸缩、故障隔离。这些好处是真实的——但代价也是实实在在的,教程里很少有人会坦白告诉你:如果不谨慎对待,运维复杂度增长的速度会远超团队增长速度。 这不是一篇微服务入门教程。是我
花了两周排查只有生产环境才会暴露的问题——一个是 sitemap 的 _redirects 规则误把 sitemap-index.xml 给重定向走了,另一个是 Bluesky 图片上传跟 Cloudflare Pages 部署延迟的竞态条件——之后,我在工作流里加了三道部署后检查。它们很快,专门针对我实际踩过的坑,不是那种大而全的端到端测试套件。 三个站(aiappdex.com、findin
最近折腾了一个云安全扫描工具,从想法到跑通Docker镜像花了30天,中间踩了几个坑,这篇把整个过程说清楚。 让我睡不着觉的问题 每周都会看到新的数据泄露新闻:S3存储桶配置错误、IAM用户拿着管理员权限却没人管、SSH 22端口直接暴露给0.0.0.0/0、安全组半年没人审查过。 最让人无语的是什么?这些根本不是高级漏洞,就是清单没检查到位。这类问题本来应该被自动捕获的。 所以我决定自己
最近折腾 LLM(大语言模型)推理优化,踩了几个坑,这篇把 KV 缓存的问题说清楚。 像 ChatGPT 这类工具背后都是 LLM 在跑,虽然能力很强,但速度一直是痛点。如果你想做响应快的 AI 产品,必须搞懂怎么优化推理,而最关键的手段就是 KV 缓存。 大麻烦:重复读取瓶颈 AI 生成一句话时,是一个词一个词往外蹦的。每生成新词,它都要回头看一遍之前所有的词。 打个比方,就像你写小说
最近折腾了一个清理僵尸云资源的小工具,踩了几个坑,这篇把过程说清楚。 每个云账号里都有僵尸资源。 不是那种好玩的僵尸,是那种悄无声息烧你预算的类型。半年前挂载的实例早就删了,EBS卷还挂在那儿没人管。某个VPC里NAT网关还在跑,但里面的业务早就迁移完了。Transfer Family的SFTP服务器当初为了数据迁移搭的,用了一次就再也没人碰过。 审计过不少账号,这种情况不是个例,是常态。基
最近折腾了一个生产环境的数据库迁移,从阿里云RDS换到新版本,踩了几个坑,这篇把思路和具体做法说清楚。 什么是数据库迁移 数据库迁移是把数据从一种存储系统、格式或环境搬到另一个地方——可以是本地服务器迁到云,也可以是直接换数据库引擎。核心挑战是在数据完整性和业务可用性之间找平衡。传统的"大爆炸"迁移方式可能需要几小时甚至几天的停机时间,这对7x24小时运营的企业来说完全不可接受。 数
最近折腾了一个自托管的多 Agent 系统,踩了不少坑,这篇把核心架构决策和经验教训说清楚。 事情是这样的:我想让五个独立的 AI Agent 运行在同一台工作站上。不是五个线程,是五个真正的 Agent——每个有自己的身份、记忆范围、工具权限和职责。它们各自跑在容器里,通过共享数据库通信,各自执行"分诊 → 执行 → 复盘"的推理循环。 全程用 Rust 实现,不碰 Python,不依赖云端
花了两个礼拜排查只在线上环境才暴露的问题——一个 _redirects 规则把我自己的 sitemap-index.xml 给拦了,还有一个 Bluesky 图片上传和 Cloudflare Pages 部署延迟的竞态问题。痛定思痛,我在 workflow 里加了三个部署后检查。速度快、针对性强,专门对付我自己踩过的坑,不是那种大而全的端到端测试套件。 三个站点(aiappdex.com、fin
最近折腾多智能体系统(MAS,Multi-Agent Systems)的网络安全,踩了几个坑,这篇把问题说清楚。 多智能体系统让 AI 组件能以机器速度协调配合,这种规模和速度是人类团队根本追不上的。但问题来了——速度越快,安全风险也越多。大多数团队都是在出事之后才意识到这一点。每新增一个智能体,攻击面就扩大一分:点对点连接、工具调用、消息中转,每个环节都可能被人钻空子。 所以多智能体安全需要
这周数据库圈子有几个值得关注的动态,踩了几个坑顺便整理出来分享下。 SQLITE 数据库在 BWRAP 沙盒中并发访问导致数据损坏(SQLITE 论坛) 来源:https://sqlite.org/forum/info/a9ee12e5f36adc13da1f59b1912753ba08d87c596eb6cb2f1d3882270b291488 SQLite 论坛上一个老哥遇到了个棘手的
共 165 条, 共 17 页