site logo

Marico's space

最近折腾了自家 Go PDF 库的性能优化,踩了不少坑,这篇把踩到的反模式和盘一托出来。 我们跑了一套自研的静态分析检查工具(内部代号 SlopGuard),对着 Go PDF 库扫了一遍。结果出来了 226 个问题,其中 218 个是真实的性能隐患——全修完了。 下面说说都发现了什么、改了什么代码、以及最终 PDF 生成速度快了多少。 背景 GoPDFSuit 是一款面向高并发 PDF
最近折腾了一个电商比价插件 Arbitra,把日本几个主流购物网站的价格抓下来比一比。说实话,日淘的价差比想象中夸张——同一台相机、同一个游戏机,Amazon.co.jp、乐天市场、煤炉、Yahoo! Auction 能差出 3000 到 20000 日元。全靠手动开四个标签页对比太蠢了,不如让浏览器替我干这活。 这篇聊聊技术实现:怎么在没 API 的情况下从多个日本电商网站抓价格,以及哪些模式
买安全工具的时候,很多人会陷入"功能军备竞赛",觉得工具越多越安全。但我踩过不少坑之后发现,这个问题没这么简单——你不只是在买功能,你买的是一种**推理方式**。这个问题不搞清楚,工具越买越多,问题越堆越杂。 Stave 是我参与开发的一个开源项目,下面的讨论中会涉及它,相关的论断我会标出边界。Cynefin 是 Dave Snowden 的框架,后文会展开介绍。 团队在组装云安全工具时总会出
最近折腾了阿里达摩院开源的 AgentScope 2.0,踩了几个坑,这篇把问题说清楚。 现在的 Agent 框架市场是真的卷。LangChain 搞链式编排,AutoGen 搞多 Agent 对话,CrewAI 搞角色协作。AgentScope 的差异化在哪?它的设计理念是:当大语言模型(LLM)的推理能力足够强时,框架应该往后退,而不是用僵化的流程图去限制模型的决策空间。 AgentSco
今年"Agent(智能代理)"这个词算是彻底泛滥了,到处都在用,但谁也说不清到底指什么。不过在它变成热词之前,我已经在自己的Homelab里跑了一堆这东西了。不是赶时髦,而是每次试图写一个大一统脚本的时候,都会撞上同一堵墙——功能越堆越多,一个地方的bug能拖垮整个系统。 所以现在的方案是:与其搞一个大脚本,不如部署一堆小型单用途的自动化代理。每个代理只干一件事,输出格式固定,调度相互独立。整个
最近折腾了在AWS上跑合同智能(RAG,检索增强生成),白板上画起来确实简单:摄取PDF、生成向量 embedding、做 RAG、抽条款。但真正落地到金融这种受监管环境——一份衍生品合同读错了可能产生数百万风险敞口——每个环节都藏着延迟、幻觉、数据泄露和审计失败的风险,这些坑只有上了生产才会暴露。这篇把我踩过的、见过的、验证过的整理出来,不废话,直接上干货。 核心问题:合同根本不是简单文档
最近在给团队搭 AI 文档自动化流程,踩了不少坑才把 PDF 处理这块打通。传统的方案是什么样子?每个 PDF 操作都要单独对接 REST 接口,上传文件、轮询任务状态、管理 token、处理各种异常……一个 OCR 流程写下来,胶水代码比业务逻辑还多。Foxit 刚出的 MCP Server 把这事儿彻底翻了个样:30+ PDF 操作直接暴露成 MCP 工具,AI 代理在一个会话里就能调用,不用
最近在给团队搭建外呼系统,LinkedIn(领英)这块踩了几个坑才跑顺。这篇把技术实现细节说清楚,不讲虚的。 核心问题:行为指纹识别 LinkedIn盯的不只是你做了什么——而是你怎么做。 固定间隔的自动化脚本分分钟就被检测到。如果你的工具每90秒精确发送一条连接请求,LinkedIn的行为监控系统立刻就能发现。真人操作不会这么机械——会走神、会切换上下文、会同时处理多个任务。 解决方案不
最近在给团队搭 Playwright E2E 框架,从项目结构、标签策略到 CI/CD 分层跑法,折腾了小两个月。这篇把踩过的坑和最终的方案捋清楚,供有类似需求的同学参考。 分层 PLAYWRIGHT E2E 策略:从 PR 烟雾测试到生产验证 不做多余铺垫,直接进正题。假设你的产品够大:多个独立功能域(登录注册、下单支付、搜索、消息、计费、第三方集成等),测试要跑在从本地开发环境到阿里云多
几周前我发了篇文章讲 ZamSync,一个用 Rust 写的同步引擎,给不丹那些跑在 2G 网络下、传输到一半就断电的地区诊所用的: 说实话没抱太大期望。我只是 EPITECH Nancy 大二的学生,没有粉丝量,不懂怎么推广自己的东西。在原文里我也说了,就是想把做的东西展示出来,看看有没有人关心这个问题。 结果完全超出预期,哈哈! 数据盘点,毕竟大家都爱看数字 💝 * 39 个 G
共 269 条, 共 27 页