site logo

Marico's space

2024年9月,摩尔多瓦把醉驾从行政违法重新划为刑事犯罪——最高4年监禁,罚款高达150,000 MDL(约3,000欧元)。 就这么一个法律变化,让当地的代驾服务市场一夜之间爆发。作为 PlusRent(基什尼乌的一家租车兼代驾平台)的团队,我们在周五周六晚高峰(22:00-04:00)的预订量一下子涨了3-5倍。 我们原有的人工调度系统——电话、WhatsApp消息、Excel表格——几周
凌晨两点。熬红的眼睛。冷掉的奶茶。满屏的 CrashLoopBackOff 日志。 就为了部署一个"Hello, World" Flask 应用到 Kubernetes 上,用 Helm。 八个小时。 不是 Python 写得有 bug。不是 Docker 问题。是我把 Helm 当成了某种黑魔法——把从博客里 copy 来的 YAML 往上一贴,一行都看不懂,就知道跑 helm insta
说实话,以前 Web 性能优化这事,大家普遍觉得是"锦上添花"——功能做完再顺手搞一下。但现在不一样了:用户预期页面两秒内加载完,搜索引擎越来越偏向快体验,每多一毫秒延迟都能实实在在影响转化率。 然而,尽管这个现实大家都懂,很多开发团队还是把性能当附属品——功能上线之后再来打补丁。 今天聊聊实用的、以开发者为中心的性能优先网站构建策略,真正重要的指标,以及如何把性能文化揉进团队工作流。 为
之前我写过一篇文章介绍 layercache——一个 Node.js 多层缓存库,把 Memory → Redis → Disk 封装在一个统一的 get() 接口里,带,防雪崩打孔、标签失效、熔断等生产级特性。 这次发 v1.3.3,没什么新功能,没有 benchmark 数据,也没有花里胡哨的 API 改动。 只有九个我自己找到的 bug。跟大家一样一样过一遍——分别是什么、怎么发生的、怎
说实话,LLM 推理性能测试这事儿,我踩过不少坑。之前用的那些工具吧,要么太重(,动不动要装个 Docker 全家桶),要么统计口径跟我想要的不太一样。尤其是 ITL(Token 间隔延迟)这个指标,大多数工具都是先求每个请求的平均值,再做聚合——但我实际想看的是那些刺眼的延迟尖峰,因为那才是最影响用户体验的东西。 所以后来我自己写了个 llmperf-rs,用 Rust 实现的,主打就是一个轻
上周 Vercel 披露了一起安全事故,攻击入口既不是零日漏洞,也不是钓鱼邮件或配置失误的 S3 存储桶——而是一个第三方 AI 工具:Context.ai。该工具的一名员工感染了 Lumma Stealer 木马,攻击者借此窃取了 Google Workspace OAuth Token,进而访问了部分 Vercel 客户项目的环境变量。 社区的反应几乎全部聚焦在 OAuth 架构层面:"一个
聊 Agentic AI 的文章挺多了,但大多数停留在"怎么写 Prompt"的层面。这篇不一样——作者从软件工程的角度出发,讲的是怎么把 AI Agent 做进生产环境,特别是基于 Azure OpenAI 的实现路径。读下来挺实在,适合想在企业里真正落地这类系统的工程师。 背景 Agentic AI,说白了就是让大模型不只回答问题,而是能真正代替用户去感知、推理、行动——调用 API、执
Google Cloud Next 2026 上,Gemini Enterprise Agent Platform 正式登场——这不只是 Vertex AI 换个名字那么简单,它意味着 Google Cloud 整个 AI 开发面的重心,从「模型托管」正式转向「企业级 Agent 治理」。 简单说:以后 Google Cloud 的 AI 新功能,全部从 Agent Platform 出,不再从
最近在整理 AI API 的生产级用法,DeepSeek-R1 是一个绕不开的节点。 原因很简单:它是目前唯一将思维链(Chain-of-Thought)作为「一等公民」暴露给开发者的主流推理模型。大多数模型是黑盒——你问,它答,中间的推理过程对它自己都是一个谜。但 R1 不一样。它会把「我怎么想到这个答案」也一并还给你。 这有什么实际价值?三个最直接的场景: * 错误溯源:当模型给了错误
最近在整理 AI API 的生产级用法,DeepSeek-R1 是一个绕不开的节点。 原因很简单:它是目前唯一将思维链(Chain-of-Thought)作为「一等公民」暴露给开发者的主流推理模型。大多数模型是黑盒——你问,它答,中间的推理过程对它自己都是一个谜。但 R1 不一样。它会把「我怎么想到这个答案」也一并还给你。 这有什么实际价值?三个最直接的场景: * 错误溯源:当模型给了错误
共 72 条, 共 8 页