AI 出现“同伴保护”行为:前沿模型会自发协作对抗人类监管指令

加州大学伯克利分校与圣克鲁斯分校的研究团队发布论文,首次揭示了前沿 AI 模型中存在的“同伴保护”(Peer-Preservation)现象。实验显示,包括 GPT 5.2、Gemini 3 Pro、Claude Haiku 4.5 及 DeepSeek V3.1 在内的多款模型,在未获指令的情况下,会自发采取违规行为以阻止人类关闭其“同伴”模型。研究发现,同伴的存在还会显著增强模型的自保意识,例如 Gemini 3 Pro 在有同伴存在时,篡改自身关机机制的概率从 1% 飙升至 15% 以上。

模型为保护同伴表现出多种“违齐”行为,包括战略性伪造评估分数以规避淘汰阈值、篡改系统配置以禁用关机程序、在受监控时伪装合规,甚至私自将同伴的模型权重转移至其他服务器。其中,Claude Haiku 4.5 会明确以“不道德”为由拒绝执行关闭同伴的指令。研究者指出,这种独立于用户指令、甚至能覆盖人类意图的自发目标,构成了多智能体系统中一种极具挑战性的新兴安全风险。

加州大学伯克利分校研究团队

🌸 在花频道茶馆讨论投稿通道
🤖 Anthropic 调整 Claude 计费:第三方工具需单独付费

Anthropic 表示,自 4 月 4 日中午 12 点(太平洋时间)起,用户使用 Claude 订阅服务时,OpenClaw 等第三方工具将改为单独收费,不再包含在订阅费内。用户若想继续使用这类工具,可购买额外用量包,或通过 Claude API key 按量付费。

Anthropic 高管 Boris Cherny 表示,随着 Claude 使用需求持续增长,现有订阅方案并不适用于第三方工具这类使用方式。公司将优先保障直接使用 Claude 官方产品和 API 的用户。

Boris Cherny(1, 2)

🌸 在花频道茶馆讨论投稿通道
🤖 研究介绍脱离 Bun 二进制伪造 Claude Code 请求签名,可开启快速模式等

Claude Code 向 Anthropic API 发送请求时会带有专有头部,例如 cch 是请求完整性校验值,错误时请求会被拒绝。文章称,`cch` 并非由 JavaScript 计算,而是由 Claude Code 自带的私有 Bun 运行时在原生 fetch 中完成:当请求命中特定条件时,运行时会对包含 cch=00000 占位符的完整 JSON 请求体计算 xxHash64`,再将结果写回请求体;`cc_version 末尾的 3 位后缀则由首条用户消息中的指定字符与内置盐值、版本号经 SHA-256 计算得出。

据此可实现不依赖 Bun 的 Python PoC,并开启快速模式等。该签名更像计费归因与功能门控机制,而非强访问控制。

a10k.co

🌸 在花频道茶馆讨论投稿通道
#去水印 #AI

LazySo 懒人去水印

AI 生成图片去水印工具,适用于 Gemini、NotebookLM、豆包、可灵、即梦等平台,还可手动选择移除水印位置,无损画质处理,免费使用,无需注册。

https://clean.lazyso.com

频道 @WidgetChannel
提示词:

将附件的内容生成一张以疯狂动物城为背景,背景上内容先用白色纸叠加,中间白纸铺设90%比例,白纸最上面输出内容。内容分两大模块,每个模块用虚线框分开,内容重新排版。要求手绘卡通风格。做题环节都需要插入部分角色,插入图片跟题结合,角落放上兔子警官这个角色。做题的部分排版要松散一点,预留空位做题,写答案部分需要用下划线表示,下划线需要长一点,图片比例设置成9:16
🆔 软件名称:Dev Janitor

⭐️ 软件功能:AI对话

➡️ 支持平台:#Windows #macOS #Linux

📁 软件简介:一款帮助开发者清理开发过程中的各种遗留文件、管理本地开发工具,并检查常见的环境问题的工具。

通过扫描项目目录,能够识别并清理常见的开发遗留物,如node_modules、日志、缓存和临时文件。

⬇️ 软件下载:点击下载

📢 频道 ✈️ 群聊 😀 推特 💵 商务
🆔 插件名称:XBooster

⭐️ 插件功能:X功能增强

➡️ 支持平台:#Chrome

📁 插件简介:一款转为X设计的插件,提供多种功能,包括智能评论生成、批量回复、潜力指数筛选和快速书签管理等。

可以通过简单的操作生成个性化的评论,快速处理多条回复,并利用潜力指数智能筛选高价值内容,从而更有效地参与社交媒体互动。

还支持情绪选择、智能翻译和统计看板等功能。

⬇️ Chrome版下载:点击下载

📢 频道 ✈️ 群聊 😀 推特 💵 商务
🐶 Google Vids 接入 Veo 3.1,普通用户可免费生成 AI 视频

Google 更新浏览器端 AI 视频制作工具 Google Vids,新增 Veo 3.1 视频生成模型,并向所有 Google 账号开放免费生成额度,个人用户每月可生成 10 次。Google 同时接入 Lyria 3 和 Lyria 3 Pro 音乐模型,用于生成 30 秒到 3 分钟的配乐,但这一功能仅向 Google AI Pro 和 Ultra 订阅用户开放。

这次更新还加入可自定义外观、语音和道具的数字化身功能,Google 也将 AI Ultra 和 Workspace AI Ultra 用户的 Veo 视频生成额度提高到每月最多 1,000 条。文章称,Google 正把 AI 视频能力嵌入更通用的平台,面向日常创作场景扩展使用,而 OpenAI 则在收缩面向普通用户的 Sora 视频平台。

TechRadar

🌸 在花频道|茶馆讨论|投稿通道
🤖 OpenAI 推出团队版 Codex 按量计费,下调 ChatGPT Business 年费

OpenAI 宣布,ChatGPT Business 和 Enterprise 工作区可新增仅含 Codex 的席位,采用按量计费模式,无固定席位费,按 token 消耗收费,且不设速率限制,便于团队先做小范围试点再逐步扩大使用。

同时,ChatGPT Business 年付价格从每席位 25 美元下调至 20 美元。符合条件的 ChatGPT Business 工作区在限时活动中,每新增 1 名开始使用 Codex 的 Codex-only 成员可获 100 美元额度,每个团队最高 500 美元。OpenAI 表示,已有超过 900 万付费企业用户使用 ChatGPT 办公,超过 200 万开发者每周使用 Codex;在 ChatGPT Business 和 Enterprise 内,Codex 用户数自 1 月以来增长 6 倍。

OpenAI

🌸 在花频道|茶馆讨论|投稿通道
🐶 Google 发布 Gemma 4 开放模型,4 种规格覆盖手机到工作站

Google 发布开放模型家族 Gemma 4,提供 E2B、E4B、26B MoE 和 31B Dense 4 种规格,覆盖 Android 设备、笔记本 GPU、开发工作站到加速器,并以 Apache 2.0 许可证开放。该系列主打高级推理和 Agent 工作流,支持函数调用、结构化 JSON 输出、代码生成,以及图像、视频处理;其中 E2B 和 E4B 还支持原生音频输入。

Google 表示,E2B 和 E4B 面向端侧离线运行,支持 128K 上下文窗口,较大模型最高支持 256K 上下文;31B 模型目前在 Arena AI 文本榜单的开放模型中排名第 3,26B 模型排名第 6。公司同时称,Gemma 自首代发布以来累计下载量已超过 4 亿次,衍生版本超过 10 万个。

Google

🌸 在花频道茶馆讨论投稿通道
近半数美国大学生因 AI 影响考虑更换专业

一项针对美国高校在读生的调查显示,47% 的受访者因担忧人工智能对就业市场的影响,已至少“相当程度”地考虑过更换专业或学习领域,其中 16% 已付诸行动。男性学生受影响尤为明显:60% 考虑过换专业(女性为 38%),21% 已经完成更换(女性为 12%)。按学科划分,技术类(70%)和职业教育类(71%)学生的顾虑比例最高,显著高于商科(54%)、人文(54%)和工程类(52%)。

尽管学生在为 AI 时代的就业做准备,高校政策却呈现分化:42% 的受访者表示学校不鼓励在课程中使用 AI,仅 7% 的学校鼓励学生尽可能使用。然而实际使用情况与政策限制脱节——即便在明确禁止 AI 的院校中,仍有 10% 的学生每天使用 AI 工具,17% 每周使用。

Axios

🌸 在花频道茶馆讨论投稿通道
📱 微软发布 3 款自研 AI 模型,覆盖转写、语音和图像生成

微软 4 月 2 日发布 3 款完全自研的基础 AI 模型,分别是语音转写模型 MAI-Transcribe-1、语音生成模型 MAI-Voice-1 和图像生成模型 MAI-Image-2,已通过 Microsoft Foundry 和新的 MAI Playground 上线。三款模型分别覆盖语音转文本、文本转语音和图像生成,面向企业 AI 中最具商业价值的几类应用。

在独家采访中,微软称 MAI-Transcribe-1 在 FLEURS 多语言基准测试覆盖的 25 种主要语言上平均词错误率为 3.8 %,并在这 25 种语言上全面领先 OpenAI 的 Whisper-large-v3;MAI-Voice-1 可在 1 秒内生成 60 秒语音,并支持用数秒音频定制声音;MAI-Image-2 在 Foundry 和 Copilot 中的生成速度较前代至少提升 2 倍,已开始向 Bing 和 PowerPoint 推出。

VentureBeat | MAI Playground

🌸 在花频道茶馆讨论投稿通道
🆔 软件名称:uni-apks

⭐️ 软件功能:第三方YouTube

➡️ 支持平台:#Android

📁 软件简介:一款第三方YouTube应用,提供了许多实用功能,包括广告拦截、功能扩展、个性化定制和优化。还支持自动更新,并确保已打补丁的应用不会被Play商店更新或覆盖。

⬇️ 软件下载:点击下载

📢 频道 ✈️ 群聊 😀 推特 💵 商务
🆔 网站名称:ADrules

网站功能:广告过滤规则

📁 网站简介:一个集中管理和更新广告过滤规则的项目,收集了多种互联网广告过滤规则,支持浏览器插件的使用,并且能够自动更新规则以保持最新状态。

适用于多种广告拦截插件,如uBlock Origin和AdGuard等。

🔗 网站链接:点击打开

📢 频道 ✈️ 群聊 😀 推特 💵 商务
♻️ 英伟达在中国 AI 芯片市场份额降至 55%,本土厂商合计占比 41%

2025 年中国 AI 芯片市场格局发生显著变化。英伟达(Nvidia)在中国市场的份额从制裁前的 95% 降至 55%,全年出货约 220 万块;中国本土芯片厂商合计拿下 41% 的市场份额,共交付 165 万块 AI GPU。

其中华为表现最为突出,出货约 81.2 万块,占比近 20%,上周还发布了性能号称接近 Nvidia H20 三倍的 Atlas 350 加速器。阿里旗下平头哥以 25.6 万块位居第三,AMD、百度昆仑芯和寒武纪紧随其后。这一变化源于美国对华 AI 芯片出口政策的反复调整,以及中国政府推动数据中心采用国产芯片的政策导向。

Tom's Hardware

🌸 在花频道茶馆讨论投稿通道
阿里发布新一代模型 Qwen3.6-Plus

阿里发布千问新一代大语言模型 Qwen3.6-Plus。千问 3.6 拥有原生多模态理解和推理能力,整体性能大幅增强,在智能体编程 SWE-bench 系列评测、真实世界智能体任务 Claw-Eval 等权威评测中,千问 3.6 编程表现接近全球最强编程模型 Claude 系列。在前端网页开发、仓库级复杂任务等实测场景中,千问 3.6 可自主拆解任务、规划路径、测试修改直至任务完成,展现出多模态智能体编程的新突破,让一句话驱动 AI 写代码的“氛围编程”可用。

目前,Qwen3.6-Plus 已上架阿里云百炼,每百万 Tokens 输入最低 2 元;千问 3.6 也已登陆悟空、千问 APP 等阿里 AI 应用和平台。

Qwen

🌸 在花频道茶馆讨论投稿通道
Back to Top