All Content
发现最新的 AI 相关内容和资源
歸藏的深度长文
4月6日 周一
Anthropic 开始限制第三方 Harness 修改系统提示词
龙虾的作者 Peter 发现了一件事,就是你如果用的是 Claude Code 或者是其他官方的 Anthropic 工具。 但是你一旦更改了系统提示词,比如出现了 Openclaw,那么就会拒绝你的请求,返回400这个报错。 感觉这是Claude Code泄露之后的一个补丁。 你现在拿泄露的Claude Code重新打包了一个自己的Claude Code,如果你改了system prompt,也有可能出现这种问题。
从层级到智能:Block 的组织变革实验
回顾了从罗马军团、普鲁士参谋部、铁路公司到麦肯锡矩阵结构和互联网公司的一整套层级组织史,指出所有传统组织设计都受同一约束:人类管理的控制幅度有限,想协调成千上万人的工作,只能不断加层,但层级越多,信息流动越慢,速度就被牺牲;而 AI 首次提供了一种替代机制,可以通过公司世界模型和客户世界模型接管原本由中层管理完成的信息汇总、对齐和决策预计算,把公司的真实运作和客户行为(尤其是以交易数据为代表的诚实信号)持续建模,再由智能层自动在适当时机组合底层金融能力(支付、借贷、发卡、银行、薪资等)并通过 Cash App、Square 等界面主动给到用户,从而让产品路线图不再由产品经理拍脑袋规划,而是由智能层无法完成的组合缺口自动生成。 在这种结构下,公司被构造成一个智能体:智能集中在系统中,人被放到边缘,只保留三类角色——深度个体贡献者、围绕具体问题短期负责的 DRI,以及既做事又带人的 player-coach——用世界模型提供过去由经理负责的上下文,对齐由系统完成、优先级由 DRI 驱动,人类只在模型触达不到、需要直觉、价值观和高风险判断的地方介入,从而尝试取消稳定的中层管理、把速度作为复利型竞争优势。 Block 认为自己拥有的经济图谱(覆盖买卖双方的实时金融行为)是那种难以理解但每天在加深的理解,因此有条件率先从层级制公司进化为以智能为核心的公司,并判断未来其他公司也必须回答:自己是否有同样深度、可复利的理解,否则 AI 只会是一场短暂的成本优化,最终被真正更聪明的组织吞并。
Anthropic 切断第三方 Harness 与 MiMo Token Plan 的思考
Two days ago, Anthropic cut off third-party harnesses from using Claude subscriptions — not surprising. Three days ago, MiMo launched its Token Plan — a design I spent real time on, and what I believe is a serious attempt at getting compute allocation and agent harness development right. Putting these two things together, some thoughts: 1. Claude Code's subscription is a beautifully designed system for balanced compute allocation. My guess — it doesn't make money, possibly bleeds it, unless their API margins are 10-20x, which I doubt. I can't rigorously calculate the losses from third-party harnesses plugging in, but I've looked at OpenClaw's context management up close — it's bad. Within a single user query, it fires off rounds of low-value tool calls as separate API requests, each carrying a long context window (often >100K tokens) — wasteful even with cache hits, and in extreme cases driving up cache miss rates for other queries. The actual request count per query ends up several times higher than Claude Code's own framework. Translated to API pricing, the real cost is probably tens of times the subscription price. That's not a gap — that's a crater. 2. Third-party harnesses like OpenClaw/OpenCode can still call Claude via API — they just can't ride on subscriptions anymore. Short term, these agent users will feel the pain, costs jumping easily tens of times. But that pressure is exactly what pushes these harnesses to improve context management, maximize prompt cache hit rates to reuse processed context, cut wasteful token burn. Pain eventually converts to engineering discipline. 3. I'd urge LLM companies not to blindly race to the bottom on pricing before figuring out how to price a coding plan without hemorrhaging money. Selling tokens dirt cheap while leaving the door wide open to third-party harnesses looks nice to users, but it's a trap — the same trap Anthropic just walked out of. The deeper problem: if users burn their attention on low-quality agent harnesses, highly unstable and slow inference services, and models downgraded to cut costs, only to find they still can't get anything done — that's not a healthy cycle for user experience or retention. 4. On MiMo Token Plan — it supports third-party harnesses, billed by token quota, same logic as Claude's newly launched extra usage packages. Because what we're going for is long-term stable delivery of high-quality models and services — not getting you to impulse-pay and then abandon ship. The bigger picture: global compute capacity can't keep up with the token demand agents are creating. The real way forward isn't cheaper tokens — it's co-evolution. "More token-efficient agent harnesses" × "more powerful and efficient models." Anthropic's move, whether they intended it or not, is pushing the entire ecosystem — open source and closed source alike — in that direction. That's probably a good thing. The Agent era doesn't belong to whoever burns the most compute. It belongs to whoever uses it wisely.
Claude Code 作者:Claude Code中最喜欢的、但经常被忽略的功能
系统性地介绍了 Claude Code 里一批隐藏但非常高效的进阶功能,重点是作者自己日常高频使用的那几类。整体思路是:把 Claude 当成一个随时随地可用、能远程操控你电脑和代码环境的工程搭档,而不是普通聊天机器人。核心功能包括:移动端开发、多设备无缝迁移、自动化任务、Hooks 系统、Cowork Dispatch 远程控制、Chrome 扩展和桌面客户端、会话分支等。
3月29日 周日
通过简化提升速度:一种用于快速音频-视频生成基础模型的单流架构
我们提出了 daVinci-MagiHuman,一种用于以人为中心生成的开源音视频生成基础模型。 daVinci-MagiHuman 使用单流 Transformer 共同生成同步的视频和音频,该模型仅通过自注意力在统一的令牌序列内处理文本、视频和音频。该单流设计避免了多流或交叉注意力架构的复杂性,同时仍可用标准训练和推理基础设施轻松优化。 daVinci-MagiHuman 在以人为中心的...
ARC-AGI-3 发布
ARC-AGI-3 发布,一个面向「交互式推理」的全新基准,通过让 AI 在全新环境里自行探索、持续学习和规划,从“按题答题”转向测试类人学习与适应能力,并作为 ARC Prize 2026 的核心轨道之一,用 100% 人类可解游戏来量化 AI 与人类智能的差距。
81,000 人对 AI 的期待
介绍了 Anthropic 使用名为 Anthropic Interviewer 的 AI 采访工具,在一周内与来自 159 个国家、70 种语言的 80,508 名 Claude 用户进行大规模开放式访谈的结果,描绘了当下人们对 AI 的真实期待与担忧。 人们最希望 AI 帮助实现的是: - 职业效率与成长(让 AI 处理琐碎事务、专注高价值工作) - 个人转变与情绪支持 - 生活管理与减...
传说 Anthropic 要推出一个非常强大的模型 Claude Mythos
传说 Anthropic 要推出一个非常强大的模型 Claude Mythos ,极其昂贵,主要先小范围开放给网络安全防御方,用来提前研究和应对即将到来的 AI 驱动网络攻击风险。
谷歌上线了 Gemini 3.1 Flash Live 预览版
谷歌上线了 Gemini 3.1 Flash Live 预览版,通过 Gemini Live API 支持超低延迟的实时语音 / 视觉对话Agent,能在嘈杂环境下更稳、更听话、更自然地多语言对话,并且直接接工具执行操作。
Claude Code 自动模式:一种更安全的跳过权限方式
Anthropic 为 Claude Code 推出的 auto mode,通过“两层防护 + 两阶段 Sonnet 4.6 转录分类器”,在尽量减少权限弹窗的前提下自动拦截危险操作。 输入侧防护:用提示注入探针扫描文件、网页和工具输出。一旦发现疑似“劫持”内容,就向主代理发出警告。 输出侧防护:对高风险动作(如 shell 命令、越界文件操作、数据外发、修改共享基础设施等)进行分级判定。只...
Claude Code 新增的 auto mode 会自动替你决定哪些文件写入和命令可以执行
Claude Code 新增的 auto mode 会自动替你决定哪些文件写入和命令可以执行,在每次工具调用前用安全分类器审查操作,安全的自动放行、风险操作自动拦截并换一种方式处理。
Claude 发布 Computer Use 功能
Claude 发布 Computer Use 功能,可以操作你电脑的所有软件,如果有 MCP 他会优先使用MCP,也可以通过手机 Claude 控制他操作电脑。
Code Storage:AI 优先的 Git 基础设施
面向机器和 AI 平台的“API 优先 Git 基础设施”:开发者可以用简单的 API 在自己的产品中批量、自动地创建和管理 Git 仓库,而不用再处理 GitHub 等平台的限流和复杂鉴权;底层采用分布式 Git 引用存储、冷热分层(7 天内访问为 Warm、之后为 Cold)和多副本架构,号称在克隆性能上比基于 r2/s3 的方案快 60 倍,并提供 99.99% SLA、透明故障切换和...
Cohere 开源 Cohere Transcribe
Cohere 开源 Cohere Transcribe,20 亿参数 Conformer 语音转文字模型,在 HuggingFace 的 Open ASR 榜单上以 5.42% 英文 WER 拿到第一名。
为 Agent 构建 CLI 工具
Cursor 的 Eric 写的,系统性总结了为 AI 代理设计 CLI 时需要遵守的原则:首先 CLI 应尽量非交互化,所有输入都能通过参数或 stdin 传入,避免在中途弹出需要人工选择的提示;帮助系统要按子命令拆分,并在每个 --help 中提供可直接照抄的示例,让代理可以通过模式匹配快速学会用法;参数设计要支持管道思维,既能用 flag 也能从 stdin 读写,错误要快速失败...
github 突然加了一个规定
github 突然加了一个规定,就是默认所有人同意将他们的代码放到训练里面用于 AI 训练,需要手动关闭才行。记得去关一下。
Google 翻译的“实时翻译”搭配耳机已正式登陆 iOS
Google 翻译的“实时翻译”搭配耳机已正式登陆 iOS,同时在更多国家推出,在网络好的时候这个东西挺好用的。
Hark:让 AI 已人类的方式跟人类互动
Figure 机器人 CEO Brett Adcock 创立的新的 AI 实验室,Hark 正在打造一种全新的「个人智能」平台:通过自研的多模态模型和原生硬件设备,让 AI 以人类的方式与世界互动——能听能说、能看能记、有持久记忆和主动性,能够在电脑上代你理解、操作和完成任务,逐渐学会像你甚至比你更早一步地思考,从而替你承担大量精神负担。
长期运行应用程序开发的 Harness design
Anthropic 工程师展示了如何通过「harness 设计」和多智能体结构,让 Claude 在前端设计与长时间全栈编码任务中的表现显著提升。 - 从前端设计入手:在这一高度主观的任务中,引入“生成器 + 评估器”的多智能体结构,把“设计好不好看”拆解为设计质量、原创性、工艺和功能性四个可打分维度。 - 形成闭环:用精调过、偏“挑剔”的评估 agent 借助 Playwright 实际操...
林俊旸:从推理型思维到Agent型思维
回顾了从 o1、R1 引发的“推理型思维”浪潮到如今“智能体式思维”的转变。早期大家用强化学习在数学、代码等可验证任务上拉高模型的推理能力,探索如何在同一模型里融合 thinking / instruct 两种模式,但实践发现两种模式在数据分布和行为目标上强烈拉扯,很多“混合模型”最后在思考和指令两端都不够好。 Anthropic 等团队提供了一个有益的纠偏视角:推理不应只是生成更长的思考轨...
从未实现的具象软件
Karri Saarinen 认为长期被推崇的“可塑软件”(用户像捏橡皮泥一样自由搭建自己工具)的愿景在智能体时代其实失去了根基:大多数人既没时间也没意愿持续“造工具”,他们需要的是稳定、可共享、可复用的成型产品,而不是不断调参的“系统工程”;智能体本身已经几乎“无限可塑”,可以在强结构、强观点的系统之上,根据用户自然语言意图在运行时动态编排操作,所以真正重要的不再是提供复杂的可视化积木、中...
lil agents:开源的桌面 AI 宠物
一个叫「lil agents」的 macOS 小工具:在 Dock 上方有两个叫 Bruce 和 Jazz 的小动画角色来回走动,点击后会弹出一个带主题风格的 AI 终端窗口,用你本地已安装的 Claude Code、OpenAI Codex、GitHub Copilot 或 Google Gemini CLI 来对话编程辅助;应用本身只负责播放 HEVC 透明视频动画、计算 Dock 尺寸...
Luma 发布了一个很厉害的图片模型 UN1
Luma 发布了一个很厉害的图片模型 UN1,类似 Nano Banana 和 Midjourney 的集合体,支持常识场景补全、空间关系理解和合理的画面变化;支持多图参考、风格迁移;支持各种文化、审美、风格的图像生成和理解,尤其是对当代视觉文化和梗图的生成。
谷歌发布 Lyria 3 Pro
谷歌发布 Lyria 3 Pro,现在支持最长 3 分钟、带段落结构(前奏/主歌/副歌/桥段等)的高保真 AI 音乐生成。
Siri 将变成一个 AI 中枢
有消息称在 iOS 27 里,Siri 将变成一个 AI 中枢,可以把请求转发给通过 App Store 安装的第三方大模型或 AI 助手,Siri 本身会迎来一次大改版,新增独立应用。
Cluade 发布 Claude Code 自动修复
Cluade 发布 Claude Code 自动修复,Web/移动会话现在可以自动跟踪拉取请求(PR)——修复持续集成(CI)失败并回应评论。
Omma:Spline 推出的 AI 3D 网页生成工具
Omma 是由 Spline 推出的 AI 创意工作室产品,主打「用自然语言描述,它就帮你搭建」,可以在几秒钟内生成 3D 场景、网站、交互式 Web 应用、游戏和演示文稿;它支持通过 CSV、JSON、DOC 等文档数据以及 3D 模型、图片、视频等素材,构建实时数据驱动的交互体验,并通过多个并行运行的 AI 代理协同完成代码生成、图像流水线、3D 建模与数据处理,大幅减少搭建复杂交互内容...
Anthropic 又 tm 改账号的额度消耗方式了
Anthropic 又 tm 改账号的额度消耗方式了,总额度是不变的,但是在高峰期,你的账号额度会消耗得更快。
ChatGPT 现在新增了一个跨对话共享的「文件库」
ChatGPT 现在新增了一个跨对话共享的「文件库」:上传过的文件都会集中到 Library 里,可以在任何聊天里快速引用、复用,不用一遍遍重新上传。
Codex 终于支持 Plugins 插件了
Codex 终于支持 Plugins 插件了,内置了不少有用的插件比如 Slack、Figma、Notion 等,插件在 Codex App、CLI 和 IDE 扩展中通用,而且也内置了插件创建的功能。
OpenClaw 憋了一周的更新发布了
OpenClaw 憋了一周的更新发布了,主要是插件系统的重构。现在支持在 ClawHub 里面安装插件。同时兼容 Codex、Claude 和 Cursor 的插件系统,这个版本顺便草台地把那个 UI 部分忘记打包了,导致整个网页用不了。
思考——快、慢与人工:人工智能如何重塑人类推理以及认知投降的兴起
人们在推理时越来越多地咨询生成式人工智能(AI)。 随着 AI 嵌入日常思维,人类判断将会如何变化? 我们提出三系统理论(Tri-System Theory),在双重加工理论的基础上扩展,假设 系统 3:在大脑之外运作的人工认知。系统 3 可以补充或取代内部过程,引入新的认知路径。 该理论的一个关键预测是 “认知投降”——以最少的审视接受 AI 输出,覆盖直觉(系统 1)和深思(系统 2)。...
Pretext:对于生成式 UI 非常有帮助的项目
上周最热的开源项目,纯 JS/TS 的多行文本测量与排版引擎,可以在完全不触发布局回流的前提下,精确计算任意语言(含 emoji、混合双向文本)的高度和逐行布局,方便你做虚拟列表、瀑布流、Canvas/SVG 文本渲染等高级 UI 布局。
AI 指数级增长背景下的产品管理
文章以 Anthropic 的 Claude Code 产品负责人 Cat Wu 的视角,讲述在模型能力呈指数级提升的背景下,产品经理如何重新设计自己的工作方式: - 从 Sonnet 3.5 到 Opus 4.6: - 她最初用 Sonnet 3.5 通过 Claude Code 连写代码都不亲自写,只靠提示就能完成原本需要大量工程资源的工具和评估。 - 到 Opus 4.6 已经可以可靠...
Cursor :通过实时 RL 改进 Composer & Composer 2 的技术报告
介绍了 Cursor 团队如何用“实时强化学习(实时 RL)来持续改进编程模型 Composer”。 它不是只在模拟环境里训练,而是把真实用户在 IDE 里与 Composer 的交互(数十亿真实推理 token)转成奖励信号,接入后端数据管道和快速部署链路。团队大约每五小时就能从生产数据中训练出一个新模型检查点,并通过评测(如 CursorBench)后上线,从而在一天内多次迭代。 相比传...
Sora 上周宣布即将关闭
Sora 上周宣布即将关闭,跟迪士尼的那项十亿协议也取消了。好像说是为了他们的下一个模型,正在集中力量搞那个事情,模型代号为 Spud。
Paper 发布 Paper Snapshot
Paper 发布 Paper Snapshot,可以截取网页指定的部分或者整个网页,并将其作为可编辑图层粘贴到 Paper 中。
Suno 发布 Suno v5.5 版本
Suno 发布 Suno v5.5 版本:更具表现力,更符合你的个性。
谷歌 Gemini 支持记忆导入功能
谷歌也加入了记忆导入的能力,可以把其他 AI 助手里已经积累的个人记忆和完整聊天记录一键导入 Gemini,让 Gemini 立刻理解你的偏好、关系和历史对话,在 Gmail、Photos、Search 等数据的加持下,直接延续原来的聊天上下文,给出更个性化、更连续的回答。
Figma 推出基于 MCP 的 use_figma 工具和可分享的 skills
Figma 推出基于 MCP 的 use_figma 工具和一组可分享的 markdown「skills」,让 Claude Code、Codex 等代理可以在 Figma 里读写文件、调用你的组件和变量,用自定义流程持续生成、对齐、修正设计,目前处于免费公测,未来会按使用量收费。
Claude Code 更新了新的 /init 命令
Claude Code 更新了新的 /init 命令,现在运行不只会帮你写 Claude.md 还会扫描你的代码库询问相关信息,帮你配置对应的 Skills 、插件、Hook。
TurboQuant:通过极致压缩重新定义 AI 效率
Google Research 提出的 TurboQuant 压缩算法及其两大核心组件 Quantized Johnson-Lindenstrauss(QJL)和 PolarQuant,解决高维向量在大模型 KV cache 和向量检索中占用内存过大的问题。 TurboQuant 通过两步实现高效无损压缩: - 首先用 PolarQuant 对向量进行随机旋转并转换为极坐标,只需精细表示半径...
Open AI 发布了 Codex Use Cases 用例库
Open AI 发布了 Codex Use Cases 用例库,里面有各种基于 Codex 的用法,重点展示了一系列可直接落地的工作流。

黄仁勋:英伟达——市值 4 万亿美元的公司与 AI 革命 | Lex Fridman 访谈录 #494
- 工程与战略:黄仁勋从工程和公司战略两个层面,系统讲清了 NVIDIA 如何从做单块 GPU 的“加速卡公司”,一路通过极端协同设计,把 GPU、CPU、网络、存储、电力、散热、软件和整个数据中心当成一个整体来设计,推动 AI 计算在十年内实现百万倍规模提升。 - 关键决策与护城河:他回顾了把 CUDA 放到 GeForce 上、用牺牲利润换装机量这一几乎“赌上公司”的决定,以及由此形成的...

Simon Willison:让编程智能体发挥作用的工程实践 - The Pragmatic Summit
Simon Willison 在这场 Pragmatic Summit 演讲里,结合自己几乎“只拿手机写代码”的实践,系统讲了他如何让编码代理真正可用: 首先,他把“没人写代码、没人读代码”的极端愿景落到工程现实里,用红–绿循环的 TDD 做核心可靠性框架,把“先写测试再写实现”的枯燥工作全部交给代理。 - 同时让代理在容器或远程沙箱里启动服务 - 用 curl 等工具做类似人工点点点的“手...

Tailwind 创始人如何用 Claude Code 进行设计
设计师 Steve Schoger 如何把 Claude Code 当成主力设计工具,用「先让 AI 生成一个还不错的初稿,再用一连串具体、带语气和偏好的自然语言指令不断打磨」的方式,从零开始搭建一个金融应用的营销首页,并在过程中示范了大量非常细腻的 UI 决策: - 用真实产品截图替代假 UI 来增强可信度 - 用更干净的灰度和外发光 ring 替代实心边框解决阴影“脏”的问题 - 统一字...
智谱发布了 GLM-5.1
智谱发布了 GLM-5.1,从放出来的测试看 Coding 得分又比 GLM-5 高了一大截,最给我比较大的惊喜是 GLM-5 Turbo,用来执行一些长链任务非常的好,比如说助理、频繁调用工具之类的。
