主页 > 软件开发 >

GTP3大模型

软件开发
2025-08-31 08:30:03

GTP3大模型

GTP3 大模型模型架构训练核心思想

GTP3 :

OpenAI 在 2020 年 5 月发布 GPT-3，发表 Language Models are Few-Shot Learner理念：Few-Shot 思想 , 用少量样本微调，让模型更准确

参数 :

最大模型 : 1750 亿参数多头 Transformer : 96 层Head size : 96词向量维度 : 12288文本长度大小 : 2048

特点 :

优点 : few-shot 友谊 ; 去除了 fine-tuning 任务缺点 : 可能有敏感内容 ; 对部分任务效果不佳 ; 当生成文本较长 , 可能前后矛盾 ; 成本太大模型架构

GPT 模型结构 :

引入 Sparse Transformer 中的 sparse attention 模块 : 每个 token 只与其他 token 的一个子集计算 attention，复杂度 O(n*logn)

sparse attention 好处：

减少注意力层的计算复杂度 , 节约显存和耗时 , 能处理更长输入序列根据局部紧密相关和远程稀疏相关特性 , 对距离较近上下文关注多 , 对距离较远上下文关注少

训练核心思想

GPT-3 评估和预测下游任务的三种方法 :

Zero-shot : 对任务描述，提供测试数据 , 直接让模型进行翻译 ; 效果最佳On-shot : 对任务描述，并提供一个例子 , 告诉模型如何翻译 ; 效果次之Few-shot : 对任务描述，并提供 N 个例子 , 告诉模型如何翻译 ; 效果最差

情境学习 (提示学习) (in-context learning) :

方法 : Few-shot、One-shot核心思想 : 通过少量数据寻找合适初始化范围，让模型快速拟合，获得不错效果

in-context learning/fine-tuning 的区别：

fine-tuning : 基于标注数据更新模型参数in-context learning : 用标注数据时不进行梯度回传，模型参数不更新in-context learning 依赖数据量 (10～100) < fine-tuning 一般的数据量

标签：

GTP3大模型由讯客互联软件开发栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“GTP3大模型”

上一篇
springboot知识点3

下一篇
软件内有离线模型，效果也很实用......