主页 > 电脑硬件  > 

模型推理增强微调

模型推理增强微调
原文链接: i68.ltd/notes/posts/20250304-llm-fine-tuning-reason/ 知识融合FuseAI 能融合多个模型,降低训练成本,提升推理性能论文链接:[2408.07990] FuseChat: Knowledge Fusion of Chat Models项目仓库:FuseAIFuseO1智商确实不错,高数和计算机系统结构的刷题智力是真的强网友评论:fuse o1 32b刷穿了我的测试题库,r1-70b的4bit awq都刷不穿我的题库 LIMO: Less is More for Reasoning 论文地址:LIMO: Less is More for Reasoning项目地址: github /GAIR-NLP/LIMO颠覆传统!比DeepSeek R1更省资源 | LIMO模型用少量数据实现高效推理,超越SFT极限 Rethinking Compute-Optimal Test-Time Scaling 论文地址: arxiv.org/pdf/2502.06703项目地址: github /RyanLiu112/compute-optimal-tts1B小模型完胜405B巨无霸!上海AILab新突破通过TTS策略,小型语言模型(LLM)具备显著超越大型模型的潜力 Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning 使用基于规则的强化学习释放LLM推理论文地址: arxiv.org/pdf/2502.14768项目仓库: github /Unakar/Logic-RLREINFORCE++逆袭Deepseek的GRPO!微软团队用逻辑谜题揭示大模型顿悟时刻仅靠逻辑题,AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini TinyR1-32B-Preview 结合DeepSeek-R1蒸馏、DeepSeek-R1-Distill-32B增量训练、模型融合等技术,使用360-LLaMA-Factory训练而来360联合北大震撼发布!5%参数量逼近Deepseek-R1满血性能Tiny-R1-32B-PreviewOpenAI o1复现——360 LLaMA Factory 训练超长思维链360-LLaMA-Factory
标签:

模型推理增强微调由讯客互联电脑硬件栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“模型推理增强微调