BR收藏 - https://www.threads.net/@akiraxtwo/post/DGyYfd4Snhh?xmt=AQGzcWPgFcIj8ImI5OrLU2lICjI64Zpw4YKa3K5pNiHLfg

如何免費訓練自己的推理大型語言模型 (LLM)，將 Llama 3.1 (8B) 結合 DeepSeek 的 GRPO (Group Relative Policy Optimization) 算法，利用 Unsloth 減少高達 90% 的顯存 (VRAM) 使用，並在免費的 Google Colab GPU 上運行。本教程涵蓋獎勵函數、數據集準備、訓練和評估，讓你的模型具備逐步推理...