模型推理增强微调

电脑硬件
2025-09-14 16:09:02

原文链接: i68.ltd/notes/posts/20250304-llm-fine-tuning-reason/ 知识融合FuseAI 能融合多个模型，降低训练成本，提升推理性能论文链接:[2408.07990] FuseChat: Knowledge Fusion of Chat Models项目仓库:FuseAIFuseO1智商确实不错，高数和计算机系统结构的刷题智力是真的强网友评论:fuse o1 32b刷穿了我的测试题库,r1-70b的4bit awq都刷不穿我的题库 LIMO: Less is More for Reasoning 论文地址:LIMO: Less is More for Reasoning项目地址: github /GAIR-NLP/LIMO颠覆传统！比DeepSeek R1更省资源 | LIMO模型用少量数据实现高效推理，超越SFT极限 Rethinking Compute-Optimal Test-Time Scaling 论文地址: arxiv.org/pdf/2502.06703项目地址: github /RyanLiu112/compute-optimal-tts1B小模型完胜405B巨无霸！上海AILab新突破通过TTS策略，小型语言模型（LLM）具备显著超越大型模型的潜力 Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning 使用基于规则的强化学习释放LLM推理论文地址: arxiv.org/pdf/2502.14768项目仓库: github /Unakar/Logic-RLREINFORCE++逆袭Deepseek的GRPO！微软团队用逻辑谜题揭示大模型顿悟时刻仅靠逻辑题，AI数学竞赛能力飙升！微软、九坤投资：7B小模型也能逼近o3-mini TinyR1-32B-Preview 结合DeepSeek-R1蒸馏、DeepSeek-R1-Distill-32B增量训练、模型融合等技术，使用360-LLaMA-Factory训练而来360联合北大震撼发布！5%参数量逼近Deepseek-R1满血性能Tiny-R1-32B-PreviewOpenAI o1复现——360 LLaMA Factory 训练超长思维链360-LLaMA-Factory

标签：

模型推理增强微调由讯客互联电脑硬件栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“模型推理增强微调”

上一篇
分布式中间件：环境准备

下一篇
【分享】网间数据摆渡系统，如何打破传输瓶颈，实现安全流转？