AI 出现“同伴保护”行为:前沿模型会自发协作对抗人类监管指令
加州大学伯克利分校与圣克鲁斯分校的研究团队发布论文,首次揭示了前沿 AI 模型中存在的“同伴保护”(Peer-Preservation)现象。实验显示,包括 GPT 5.2、Gemini 3 Pro、Claude Haiku 4.5 及 DeepSeek V3.1 在内的多款模型,在未获指令的情况下,会自发采取违规行为以阻止人类关闭其“同伴”模型。研究发现,同伴的存在还会显著增强模型的自保意识,例如 Gemini 3 Pro 在有同伴存在时,篡改自身关机机制的概率从 1% 飙升至 15% 以上。
模型为保护同伴表现出多种“违齐”行为,包括战略性伪造评估分数以规避淘汰阈值、篡改系统配置以禁用关机程序、在受监控时伪装合规,甚至私自将同伴的模型权重转移至其他服务器。其中,Claude Haiku 4.5 会明确以“不道德”为由拒绝执行关闭同伴的指令。研究者指出,这种独立于用户指令、甚至能覆盖人类意图的自发目标,构成了多智能体系统中一种极具挑战性的新兴安全风险。
加州大学伯克利分校研究团队
🌸 在花频道|茶馆讨论|投稿通道
加州大学伯克利分校与圣克鲁斯分校的研究团队发布论文,首次揭示了前沿 AI 模型中存在的“同伴保护”(Peer-Preservation)现象。实验显示,包括 GPT 5.2、Gemini 3 Pro、Claude Haiku 4.5 及 DeepSeek V3.1 在内的多款模型,在未获指令的情况下,会自发采取违规行为以阻止人类关闭其“同伴”模型。研究发现,同伴的存在还会显著增强模型的自保意识,例如 Gemini 3 Pro 在有同伴存在时,篡改自身关机机制的概率从 1% 飙升至 15% 以上。
模型为保护同伴表现出多种“违齐”行为,包括战略性伪造评估分数以规避淘汰阈值、篡改系统配置以禁用关机程序、在受监控时伪装合规,甚至私自将同伴的模型权重转移至其他服务器。其中,Claude Haiku 4.5 会明确以“不道德”为由拒绝执行关闭同伴的指令。研究者指出,这种独立于用户指令、甚至能覆盖人类意图的自发目标,构成了多智能体系统中一种极具挑战性的新兴安全风险。
加州大学伯克利分校研究团队
🌸 在花频道|茶馆讨论|投稿通道
Anthropic 表示,自 4 月 4 日中午 12 点(太平洋时间)起,用户使用 Claude 订阅服务时,OpenClaw 等第三方工具将改为单独收费,不再包含在订阅费内。用户若想继续使用这类工具,可购买额外用量包,或通过 Claude API key 按量付费。
Anthropic 高管 Boris Cherny 表示,随着 Claude 使用需求持续增长,现有订阅方案并不适用于第三方工具这类使用方式。公司将优先保障直接使用 Claude 官方产品和 API 的用户。
Boris Cherny(1, 2)
🌸 在花频道|茶馆讨论|投稿通道
Claude Code 向 Anthropic API 发送请求时会带有专有头部,例如
cch 是请求完整性校验值,错误时请求会被拒绝。文章称,`cch` 并非由 JavaScript 计算,而是由 Claude Code 自带的私有 Bun 运行时在原生 fetch 中完成:当请求命中特定条件时,运行时会对包含 cch=00000 占位符的完整 JSON 请求体计算 xxHash64`,再将结果写回请求体;`cc_version 末尾的 3 位后缀则由首条用户消息中的指定字符与内置盐值、版本号经 SHA-256 计算得出。据此可实现不依赖 Bun 的 Python PoC,并开启快速模式等。该签名更像计费归因与功能门控机制,而非强访问控制。
a10k.co
🌸 在花频道|茶馆讨论|投稿通道
LazySo 懒人去水印
AI 生成图片去水印工具,适用于 Gemini、NotebookLM、豆包、可灵、即梦等平台,还可手动选择移除水印位置,无损画质处理,免费使用,无需注册。
https://clean.lazyso.com
频道 @WidgetChannel
将附件的内容生成一张以疯狂动物城为背景,背景上内容先用白色纸叠加,中间白纸铺设90%比例,白纸最上面输出内容。内容分两大模块,每个模块用虚线框分开,内容重新排版。要求手绘卡通风格。做题环节都需要插入部分角色,插入图片跟题结合,角落放上兔子警官这个角色。做题的部分排版要松散一点,预留空位做题,写答案部分需要用下划线表示,下划线需要长一点,图片比例设置成9:16
Google 更新浏览器端 AI 视频制作工具 Google Vids,新增 Veo 3.1 视频生成模型,并向所有 Google 账号开放免费生成额度,个人用户每月可生成 10 次。Google 同时接入 Lyria 3 和 Lyria 3 Pro 音乐模型,用于生成 30 秒到 3 分钟的配乐,但这一功能仅向 Google AI Pro 和 Ultra 订阅用户开放。
这次更新还加入可自定义外观、语音和道具的数字化身功能,Google 也将 AI Ultra 和 Workspace AI Ultra 用户的 Veo 视频生成额度提高到每月最多 1,000 条。文章称,Google 正把 AI 视频能力嵌入更通用的平台,面向日常创作场景扩展使用,而 OpenAI 则在收缩面向普通用户的 Sora 视频平台。
TechRadar
🌸 在花频道|茶馆讨论|投稿通道
OpenAI 宣布,ChatGPT Business 和 Enterprise 工作区可新增仅含 Codex 的席位,采用按量计费模式,无固定席位费,按 token 消耗收费,且不设速率限制,便于团队先做小范围试点再逐步扩大使用。
同时,ChatGPT Business 年付价格从每席位 25 美元下调至 20 美元。符合条件的 ChatGPT Business 工作区在限时活动中,每新增 1 名开始使用 Codex 的 Codex-only 成员可获 100 美元额度,每个团队最高 500 美元。OpenAI 表示,已有超过 900 万付费企业用户使用 ChatGPT 办公,超过 200 万开发者每周使用 Codex;在 ChatGPT Business 和 Enterprise 内,Codex 用户数自 1 月以来增长 6 倍。
OpenAI
🌸 在花频道|茶馆讨论|投稿通道