notes_NLP
- 创业
- 2025-08-16 04:45:02

RNN > LSTM, GRU model特点RNNLSTMinput+forget+putput;GRUreset+update;参数比LSTM少,计算效率更高;
循环神经网络(RNN/LSTM/GRU) 人人都能看懂的GRU
transformer > self-attention 根据Query和Key计算权重系数 1.1 根据Query和Key计算两者的相似性或者相关性 1.2 对第一阶段的原始分值进行归一化处理根据权重系数对Value进行加权求和Transformer的attention机制和LSTM的gate机制都通过加权方法控制了信息的流动;当前时刻的输出依赖于历史(单向模型)或者历史和未来的信息(双向模型)。 不同点:
modelattentiongate激活函数sigmoidsoftmax操作对象全局元素可作用范围any有限Attention weights和LSTM/GRU中的gate机制有何不同? 超详细图解Self-Attention 熬了一晚上,我从零实现了Transformer模型,把代码讲给你听
预训练语言模型预训练:在模型参数初始化时使用已经在一些任务上预先训练完的、而非随机的参数。在后续具体任务上,可以冻结(fronzen)或微调(fine-tune)参数。
预训练语言模型:在以word2vec(2013)为代表的第一代预训练语言模型中,一个单词的词向量是固定不变的,无法区分单词的不同语义。ELMo(2018)考虑了上下文的信息,较好地解决了多义词的表示问题,开启了第二代预训练语言模型的时代,即预训练+微调的范式。
自回归模型可以类比为早期的统计语言模型,也就是根据上文预测下一个单词,或者根据下文预测前面的单词。包括ELMo、GPT、XLNet等。 自编码模型可以在输入中随机掩盖一个单词(相当于噪声),在预训练过程中,根据上下文预测被掩码词,因此可以认为是一个降噪(denosing)的过程。包括BERT、ERINE、RoBERTa等。
MLM (Masked Language Modeling) 是一种预训练语言模型的方法,通过在输入文本中随机掩盖一些单词或标记,并要求模型预测这些掩盖的单词或标记。主要目的是训练模型来学习上下文信息,以便在预测掩盖的单词或标记时提高准确性。
一文了解预训练语言模型! 预训练模型与10种常见NLP预训练模型 Masked Language Modeling
ProtBERT… …
下一篇
逻辑漏洞详解