<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>ClaudeHaiku45 | BR收藏</title><description/><link>https://broadcastchannel.brlin.org</link><item><title>▍用過 Claude Sonnet 4.5 的龍蝦 OpenClaw 再回頭看便宜模型：OpenRouter 多模型實測心得TL;DR：我原本用 Claude Sonnet 4.5 搭配 OpenClaw 做日常 AI 助理，品質很好但成本不低</title><link>https://broadcastchannel.brlin.org/posts/1071</link><guid isPermaLink="true">https://broadcastchannel.brlin.org/posts/1071</guid><pubDate>Wed, 18 Feb 2026 04:56:15 GMT</pubDate><content:encoded>▍用過 Claude Sonnet 4.5 的龍蝦 OpenClaw 再回頭看便宜模型：OpenRouter 多模型實測心得&lt;br /&gt;&lt;br /&gt;TL;DR：我原本用 Claude Sonnet 4.5 搭配 OpenClaw 做日常 AI 助理，品質很好但成本不低。透過 OpenRouter 嘗試了一輪便宜模型之後，得到一個很誠實的結論：便宜的模型表面上省錢，實際上是在浪費你的時間。但也不是完全沒有驚喜，Grok 4.1 Fast 目前是我覺得 CP 值算高的選擇。以下是我的實測心得。&lt;br /&gt;&lt;br /&gt;⸻&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23%E7%82%BA%E4%BB%80%E9%BA%BC%E9%96%8B%E5%A7%8B%E6%8E%A2%E7%B4%A2%E5%85%B6%E4%BB%96%E6%A8%A1%E5%9E%8B&quot;&gt;#為什麼開始探索其他模型&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;先講背景。我之前一直用 Claude Sonnet 4.5 搭配 OpenClaw 和 Telegram 做日常的 AI 助理，用來處理摘要、翻譯、資料整理這些瑣事。體驗很好，回覆品質穩定，很多事情丟過去就能一次到位，幾乎不需要我反覆引導。&lt;br /&gt;&lt;br /&gt;問題是，Sonnet 4.5 的價格擺在那裡：輸入 $3、輸出 $15（每百萬 token），在 OpenRouter 的分級裡直接被歸類為 Premium。如果你每天大量使用，帳單累積起來是有感的。&lt;br /&gt;&lt;br /&gt;所以我開始好奇：市面上那些便宜五倍、十倍的模型，到底能不能用？是真的划算，還是只是便宜沒好貨？&lt;br /&gt;&lt;br /&gt;帶著這個問題，我在 OpenRouter 上開始了一輪模型探索。我挑模型的方式也很簡單：先看 OpenRouter 上排名前幾的模型，再參考一張社群整理的模型試算表（裡面列了各模型的價格、context window、支援的 modality、成本等級等資訊。原本還想找速度，但找不到。），從不同等級裡各挑幾個出來實測。如果你也想自己試，這張表很值得參考，可以從裡面按照自己的預算和需求挑模型來測。&lt;br /&gt;&lt;br /&gt;⸻&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23%E6%88%91%E6%80%8E%E9%BA%BC%E8%A9%95%E4%BC%B0%E9%80%99%E4%BA%9B%E6%A8%A1%E5%9E%8B&quot;&gt;#我怎麼評估這些模型&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;先講一下我的評估方式，這不是什麼嚴謹的 benchmark 測試，就是某天晚上花了幾個小時，把幾個模型輪流接上 OpenClaw 實際跑一輪的體感。我測試的任務都是我平常會用到的：每日任務處理、推特文章摘要、規劃搜集資料、還有分派工作給子代理（Subagent）。全程沒有測寫程式碼的部分，純粹是日常助理和任務調度的場景。&lt;br /&gt;&lt;br /&gt;聰明程度：能不能理解複雜的指令、能不能舉一反三、會不會自己延伸思考，還是每個步驟都要我手把手帶。&lt;br /&gt;&lt;br /&gt;回覆速度：日常助理場景，速度很重要。如果一個模型很聰明但要等三十秒才回覆，那跟自己做差不多。&lt;br /&gt;&lt;br /&gt;回覆品質：內容夠不夠充實、有沒有料、語言流暢度如何。&lt;br /&gt;&lt;br /&gt;回覆態度和內容量：這個很微妙但很重要。笨的模型回覆看起來好像有回答你，但仔細看什麼都沒幫到。更慘的是動不動就雙手一攤跟你說「我無法完成這個任務」。這跟笨服務生一樣，你問他什麼他只會說「不好意思、我不行、我們沒有」，句號，沒了。聰明的模型就算真的做不到，它會跟你解釋為什麼不行、目前的限制是什麼、有沒有替代方案可以試。光是這個差異，就能讓你感受到模型的「智商」是否在線。&lt;br /&gt;&lt;br /&gt;回傳格式的適應能力：我的使用場景是 Telegram，這代表模型回傳的格式很關鍵。有些模型很愛用 Markdown 表格、程式碼區塊這些東西，在網頁上看很漂亮，但丟到 Telegram 裡排版就整個炸開，根本沒辦法看。最讓人抓狂的是你明明跟它講了「不要用表格格式」，它下一則回覆照樣給你一個表格，講不聽。好的模型你提醒一次，它後續就會自動調整輸出格式，這種「聽得懂人話」的能力其實也是聰明程度的一部分。&lt;br /&gt;&lt;br /&gt;需不需要反覆引導：這是我覺得最關鍵的指標。頂級模型你給一個大方向它就能自己跑，便宜模型你得一步一步帶，光是引導花的時間就把省下來的錢全部吃回去。&lt;br /&gt;&lt;br /&gt;基準線就是 Claude Sonnet 4.5 的使用體驗。以下所有比較都是跟它對照。但我也是看了這個表格之後才發現 Sonnet 4.5 在最下面的 Premium，有夠淒慘，因為已經習慣了這麼高級的模型，原本想說 Sonnet 應該還好沒有很強吧。&lt;br /&gt;&lt;br /&gt;⸻&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23%E5%90%84%E6%A8%A1%E5%9E%8B%E5%AF%A6%E6%B8%AC%E5%BF%83%E5%BE%97&quot;&gt;#各模型實測心得&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23Gemini25FlashLite&quot;&gt;#Gemini25FlashLite&lt;/a&gt;（$0.10 / $0.40）：便宜到底，但笨到底&lt;br /&gt;&lt;br /&gt;先從最便宜的開始講。Google 的 Gemini 2.5 Flash Lite，輸入 $0.10、輸出 $0.40，在 OpenRouter 上被歸類為 Ultra Budget，價格確實很香。&lt;br /&gt;&lt;br /&gt;但用了之後我只有一個感想：你得到的就是你付出的。&lt;br /&gt;&lt;br /&gt;連最基本的文章摘要都做得磕磕絆絆，速度是算快，但最讓我受不了的是完全不會舉一反三，你給它一個任務，它就只做那一個任務，不會自己延伸、不會主動補充相關資訊。每一步都需要你明確指示，像在教一個完全沒有經驗的實習生。&lt;br /&gt;&lt;br /&gt;而且它的回覆量少得可憐，看起來好像有回答你的問題，但仔細看就是兩三句話帶過，什麼具體的東西都沒有。你問它整理一份資料，它給你的結果就像考試寫了名字但交白卷。碰到稍微困難的任務就直接跟你說做不到，連嘗試都不嘗試，更別提給你替代方案了。&lt;br /&gt;&lt;br /&gt;如果你的需求真的只是最簡單的文字處理，勉強可以用。但只要稍微複雜一點的任務，省的那幾毛錢完全不值得你花的時間。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23MiniMaxM25&quot;&gt;#MiniMaxM25&lt;/a&gt;（$0.30 / $1.20）：Benchmark好看，實際偏笨&lt;br /&gt;&lt;br /&gt;MiniMax 的 M2.5 是一個蠻有趣的案例。如果你只看跑分，這個模型的數據其實不差，價格也算 Budget 等級。&lt;br /&gt;&lt;br /&gt;但實際對話下來，說真的，還是有點太笨了。理解能力不夠，回覆經常答非所問，複雜一點的指令就開始出包。格式方面也讓人頭痛，我在 Telegram 上用，跟它說過不要用 Markdown 表格，它照樣每次都丟表格出來，排版在 Telegram 上炸得一塌糊塗。講了三次還是講不聽，這種「無法遵守指令」的問題在便宜模型上特別明顯。&lt;br /&gt;&lt;br /&gt;我後來想想，也許是因為 MiniMax M2.5 在 coding benchmark 上的表現特別強，所以跑分好看，但平常的推理能力和日常任務處理這塊並沒有特別優化。說白了就是偏科，寫程式可能可以，但我這次測的全部都是日常助理的任務，一行 code 都沒寫，所以它的強項完全沒派上用場。&lt;br /&gt;&lt;br /&gt;這讓我學到一件事：Benchmark 分數跟實際使用體驗之間，存在一條巨大的鴻溝。跑分高不代表好用，尤其在日常對話和任務處理的場景。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23DeepSeekV32&quot;&gt;#DeepSeekV32&lt;/a&gt;（$0.25 / $0.38）：聰明但太慢&lt;br /&gt;&lt;br /&gt;DeepSeek V3.2 是這輪測試裡讓我最糾結的模型。&lt;br /&gt;&lt;br /&gt;聰明程度確實可以，我覺得已經接近 Sonnet 4.5 的水準了。理解力好、回覆有深度、能自己延伸思考。價格也漂亮，輸入 $0.25、輸出 $0.38，被歸在 Budget 等級。&lt;br /&gt;&lt;br /&gt;但問題出在速度。回覆速度實在太慢了，慢到讓我覺得「我等它回覆的時間，都夠我自己做完了」。在日常助理的場景裡，速度是很關鍵的。你不會想每次問一個問題就等半天。&lt;br /&gt;&lt;br /&gt;說白了，DeepSeek V3.2 的聰明程度被它的速度拖累了。等待的時間成本直接抵消了它的價格優勢。如果哪天它的速度能提上來，會是一個非常有競爭力的選擇。但現階段，做為日常助理來用，體驗不夠流暢。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23ClaudeHaiku45&quot;&gt;#ClaudeHaiku45&lt;/a&gt;（$1.00 / $5.00）：自家的輕量版，但⋯⋯&lt;br /&gt;&lt;br /&gt;身為 Claude 的長期用戶，我當然也試了 Anthropic 自家的輕量版 Haiku 4.5。價格是 Mid-High 等級，輸入 $1、輸出 $5。&lt;br /&gt;&lt;br /&gt;老實說，用過之後有點失望。名字叫 Haiku，果然就是「輕量」的意思，不只是體積輕量，腦子也有點輕量。跟 Sonnet 4.5 比起來，差距太明顯了。很多任務它處理得不夠到位，還是需要反覆引導才能得到我要的結果。&lt;br /&gt;&lt;br /&gt;而且以它的價格來說，性價比也不算特別好。你付了 Budget 以上的錢，得到的卻是 Budget 等級的表現，這就尷尬了。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23Grok41Fast&quot;&gt;#Grok41Fast&lt;/a&gt;（$0.20 / $0.50）：目前的驚喜&lt;br /&gt;&lt;br /&gt;最後要講的是 xAI 的 Grok 4.1 Fast，這個模型是我這輪測試裡最大的驚喜。&lt;br /&gt;&lt;br /&gt;先看帳面數據：輸入 $0.20、輸出 $0.50，被歸在 Budget 等級。Context window 高達 2,000K（200 萬 token），這個數字非常誇張，市面上很少模型能給到這麼大的上下文視窗。支援 text+image 輸入。&lt;br /&gt;&lt;br /&gt;實際使用體驗呢？回覆速度快，名字裡的「Fast」是真的。回覆內容充實、有料，不是那種敷衍了事的短回覆。理解能力也還算可以，雖然沒有到 Sonnet 4.5 或 DeepSeek V3.2 的水準，但以這個價格來說，已經超出我的預期了。&lt;br /&gt;&lt;br /&gt;更重要的是，它不需要我每一步都手把手引導。給一個方向，它能自己往前跑一段，雖然偶爾會跑偏，但整體效率比其他 Budget 模型好很多。碰到做不到的事情，它也會好好跟你解釋為什麼，然後主動提供替代做法，這點讓我蠻意外的。格式方面也比較聽話，提醒過一次之後，後續的回覆就會自動調整，不會一直重複犯同樣的錯。&lt;br /&gt;&lt;br /&gt;如果你正在找一個便宜、快、堪用的日常模型，Grok 4.1 Fast 是我目前會推薦的第一選擇。&lt;br /&gt;&lt;br /&gt;⸻&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23%E9%97%9C%E9%8D%B5%E7%99%BC%E7%8F%BE&quot;&gt;#關鍵發現&lt;/a&gt;：便宜模型的隱藏成本&lt;br /&gt;&lt;br /&gt;經過這一輪測試，我最大的體悟是：便宜模型的真正成本不在 API 帳單上，在你的時間上。&lt;br /&gt;&lt;br /&gt;用 Sonnet 4.5 的時候，我丟一個任務過去，它回覆的結果八九成可以直接用。但換成 Budget 模型之後，每個任務都變成了一場拉鋸戰。回覆品質不到位，你要追問；理解錯誤，你要重新解釋；少做了一個步驟，你要補充指令。一來一回，花掉的時間遠超過你以為省下的錢。&lt;br /&gt;&lt;br /&gt;我之前用 Sonnet 4.5 用得很順，什麼事情丟過去都能做好，結果就是把胃口養壞了。當你習慣了頂級模型一次到位的效率，再回頭用便宜模型，那個落差感真的很大。</content:encoded></item></channel></rss>