论文阅读：CANGENERATIVELARGELANGUAGEMODELSPERFORMASRERRORCORR

游戏开发
2025-09-17 05:03:02

CAN GENERATIVE LARGE LANGUAGE MODELS PERFORM ASR ERROR CORRECTION?

生成式大语言模型能否进行自动语音识别（ASR）纠错？

arxiv.org/pdf/2307.04172

文章目录速览常规总结通俗版摘要（Abstract）2. 引言（Introduction）2. BACKGROUND3. LLM-BASED ASR ERROR CORRECTION3.1 无约束纠错（Unconstrained Error Correction）3.1.1 零样本 vs. 单样本提示 3.2 约束纠错（N-best Constrained Correction）3.2.1 选择法（Selective Approach）3.2.2 最近映射法（Closest Mapping） 4. EXPERIMENTS4.1 实验设置（Setup）4.2 实验结果（Experimental Results）4.3. Discussion4.4. Ablation and Analysis（消融分析）5. CONCLUSIONS（结论）

速览常规总结

这篇论文探讨了生成式大型语言模型（如ChatGPT）在自动语音识别（ASR）错误校正中的应用。以下是核心内容的总结：

研究背景

ASR系统的挑战：尽管端到端模型（如RNN-T、LAS、Whisper）显著提升了语音识别性能，但ASR输出仍存在错误，尤其是低频词或跨领域场景。传统错误校正方法：通常需要针对特定ASR系统训练监督模型（如基于T5的模型），计算成本高且缺乏灵活性。生成式LLMs的优势：ChatGPT等模型具备零样本/少样本学习能力，无需训练即可适配不同ASR系统，为高效错误校正提供了新思路。

方法创新论文提出两种基于N-best列表的校正策略（N为ASR解码生成的多个候选结果）：

无约束校正（Unconstrained Correction）

输入：ASR生成的N-best假设列表。任务：直接生成校正后的文本，不限制输出范围。提示设计：通过标签（如<hypothesis1>）明确区分候选，零样本或少样本示例引导模型理解任务。

约束校正（Constrained Correction）

选择性方法（Selective）：让ChatGPT从N-best列表中选择最佳候选。最近映射（Closest Mapping）：将ChatGPT的无约束输出与N-best列表对比，选择编辑距离最小的候选。

实验结果在两个ASR系统（Conformer-Transducer和Whisper）和三个数据集（LibriSpeech、TED-LIUM3、Artie Bias）上的测试表明：

性能提升：

Conformer-Transducer：在跨领域数据（如TED-LIUM3）上，1-shot无约束校正使词错误率（WER）相对降低25.1%，甚至优于N-best列表的Oracle性能。Whisper：校正效果受限于其N-best列表多样性不足，但仍能通过约束方法降低WER（如LibriSpeech上从7.37%降至7.03%）。

关键发现：

N-best列表大小：输入更多候选（如N=5）能显著提升校正效果，提供更丰富的上下文。少样本学习：1-shot示例有效减少生成中的截断错误，提升稳定性。约束解码优势：选择性方法和最近映射在多数场景下优于无约束生成，减少冗余修改。

与传统方法对比：

ChatGPT在跨领域任务上表现接近或优于监督训练的T5模型，且无需训练数据，更具灵活性。

局限性与启示

N-best列表质量：若ASR生成的候选多样性低（如Whisper因规范化导致重复），校正效果受限。计算成本：调用ChatGPT API可能产生延迟与费用，需权衡实时性需求。未来方向：结合ASR内部信息（如声学特征）与LLMs的语言知识，进一步提升校正鲁棒性。

总结论文首次验证了生成式LLMs（如ChatGPT）在ASR错误校正中的有效性，尤其在零样本/少样本场景下展现出与监督模型媲美的性能。这一方法为快速适配不同ASR系统及跨领域应用提供了高效解决方案，是语音处理与语言模型结合的重要探索。

通俗版

作者的方法其实特别像 “考试时老师帮你改错题”，只不过这里的“老师”是 ChatGPT 这种大模型，“考题”是语音识别（ASR）的结果。具体分三步：

第一步：语音识别（ASR）先答题比如你说了一句 “李雷骑（qí）自行车去公园”，但 ASR 可能听错了，生成几个可能的答案（类似考试时写了几种可能的答案）：

李雷去自行车去公园（漏听“骑”）李雷其自行车去公园（“骑”听成“其”）李雷气自行车去公园（“骑”听成“气”）这些答案都叫 “N-best 列表”（比如 N=3 就是 3 个候选答案）。

第二步：让大模型（如ChatGPT）当“老师”改卷作者用了两种改卷方式：

方式一：自由改卷（无约束校正）直接把 ASR 的多个候选答案交给 ChatGPT，让它根据“常识”和“上下文”改出最合理的句子。 👉 例如：输入：“候选1：李雷去自行车去公园；候选2：李雷其自行车去公园；候选3：李雷气自行车去公园。” ChatGPT 可能输出：“李雷骑自行车去公园”。（直接修正错误）

方式二：选择题改卷（约束校正）为了避免 ChatGPT “乱改”，让它从 ASR 给的候选答案里选一个最好的，或者改完的句子必须接近某个候选答案。 👉 例如：输入同样的候选答案，ChatGPT 可能选候选2（“其”），但发现“其”不合理，于是改成“骑”，但要求改动后的句子必须和某个候选答案很像（比如改动最少的候选2）。

关键技巧：让模型“看多个答案” 作者发现，ASR 给出的候选答案越多（比如从3个增加到5个），ChatGPT 改错的效果越好。这就像考试时，如果你给老师看了5种可能的解法，老师更容易从中找出正确的思路。

举个实际例子场景：你说 “三角形的内角和是180度”

ASR 可能听错：生成候选答案

三角含的内角和是180度三角形的内脚和是180度三角形的内角和是180杜

ChatGPT 改错：

自由改卷 → 直接输出正确句子：“三角形的内角和是180度”。选择题改卷 → 发现候选1中的“三角含”可能是“三角形”的误听，于是选候选1并修正为正确版本。

为什么这方法厉害？

不用训练：直接拿现成的 ChatGPT 就能用，不用为了改错专门训练模型。灵活：不管 ASR 是哪个公司开发的（比如讯飞、Whisper），都能直接套用。像人一样改错：大模型能结合常识（比如“三角形的内角和”是数学常识），而传统方法只会死板地改字词。

一句话总结作者的方法就是：让语音识别系统多写几个答案，再请 ChatGPT 当老师，从这些答案里挑错或直接改出正确答案。简单粗暴但有效！

摘要（Abstract）研究问题：能否用ChatGPT这类生成式大语言模型（LLM）来纠正语音识别（ASR）的错误？传统方法痛点：传统ASR纠错模型需要针对特定语音系统进行监督训练，过程复杂耗时模型只能适配特定ASR系统，更换系统或领域时需要重新训练创新方案：使用ChatGPT进行零样本（无需训练）或少量样本（1个示例）的纠错提出两种纠错策略：自由生成式纠错（直接生成修正文本）约束式纠错（从ASR提供的多个候选结果中选择最优）实验结果：在两种主流ASR架构（Transducer和Attention-Encoder-Decoder）上均有效在多个测试集上降低了词错误率（WER） 2. 引言（Introduction） ASR的重要性：语音转文字是人与机器交互的核心技术，但存在错误需要修正现有技术局限：传统端到端模型（如RNN-T、LAS）依赖大量标注语音数据即使像Whisper这种用68万小时数据训练的模型，仍存在低频词识别问题纠错模型发展：早期：基于人工规则的纠错系统（需要专业知识）当前主流：基于神经网络的端到端模型（需要针对每个ASR系统单独训练）最新趋势：使用预训练语言模型（如T5）微调，但仍有训练成本本文突破点：首次尝试用ChatGPT这种生成式大模型进行ASR纠错关键创新：利用ASR解码时产生的N-best候选列表（多个可能结果）优势体现：无需训练即插即用适配不同ASR系统在陌生领域也能有效工作

举个生活化例子帮助理解：想象你对着手机说"明天九点提醒我买鲜橙"，ASR可能错误转写成"明天酒点提醒我卖县城"。传统纠错系统需要专门学习这个ASR的犯错规律，而ChatGPT就像个语言专家，通过查看ASR提供的多个候选结果（如：①酒点/卖县城 ②九点/买鲜橙 ③九点/卖县城），结合常识判断正确版本应该是"九点买鲜橙"。

这种方法的革命性在于：不再需要针对每个语音识别器单独训练纠错模型，直接调用通用语言模型就能实现跨系统的智能纠错。

2. BACKGROUND

核心问题：如何让语音识别的结果更准确？想象你对着手机说“帮我订明天上午九点的闹钟”，但语音识别系统（ASR）可能错误转写成“帮我订明天上午酒的闹钟”。这时需要一个“纠错小助手”来修正错误。

传统纠错方法：

单句纠错（1-best输入）：

早期纠错模型只看ASR给出的最可能的错误结果（比如“酒”），直接修改成正确文本（“九”）。缺点：如果ASR的第一候选结果完全错误（例如“酒点”），纠错模型可能无法理解上下文。

多候选纠错（N-best输入）[17]：

ASR会输出多个可能的候选结果（比如：①酒的闹钟 ②九点的闹钟 ③九点闹钟）→ 称为N-best列表。纠错模型（如T5）会同时分析这些候选，结合上下文选择最佳答案。就像考试时遇到选择题，先排除明显错误选项，再从剩下的选项中找正确答案。

约束解码技术：

结合ASR的“语音识别置信度”和T5的“语言理解能力”打分。例如： ASR可能给“酒的闹钟”打高分（因为发音像），但T5发现“九点的闹钟”更符合逻辑→ 最终选择后者。

ChatGPT的新突破：

为什么用ChatGPT？ T5需要针对特定ASR系统训练，而ChatGPT是“全能语言专家”，通过海量文本学习（相当于读过整个互联网），无需额外训练即可纠错。支持零样本学习（直接使用）或1样本学习（给一个例子就能模仿），就像人类举一反三。

Fig. 1（N-best T5模型结构）想象这是一条“文本加工流水线”：

输入阶段：

接收ASR的多个错误候选（例如：“come and pay us a visit”和“come on past the visit”），每个句子被标记为<BOS>...<EOS>（类似书签）。

编码器（Transformer Encoder）：

像“语法检查员”拆解句子，分析每个词的错误概率。例如：“past”在上下文中可能被标记为可疑词。

解码器（Transformer Decoder）：

像“语言大师”重新组合词语，生成更合理的句子。例如，发现“pay us a visit”是常用搭配，而“past the visit”不符合逻辑→ 输出“come and pay a visit”。

约束解码的配合：

图中未直接展示，但实际会结合ASR和T5的评分（例如：ASR认为“past”发音更接近，但T5认为“pay”更合理），最终选择综合得分最高的结果。

类比帮助理解：

传统纠错模型：像一个只会修改错别字的校对员，只能处理单一输入。N-best T5模型：升级为团队协作，多个校对员各自提出修正方案，投票选出最佳答案。ChatGPT应用：直接请来一位“语言教授”，利用庞大知识库瞬间判断最合理的表达。

通过这种多候选分析+语言模型辅助，ASR的准确率得以显著提升，而ChatGPT的引入让这一过程更智能、更通用。

3. LLM-BASED ASR ERROR CORRECTION

问题场景：假设ASR系统将语音“请打开空调”错误识别为以下3个候选（N-best列表）：

轻打开空调（ASR最自信的结果）请打开空调（正确答案，但ASR评分第二）请打开空调（错别字，ASR评分第三）

现在要让ChatGPT纠正错误。

3.1 无约束纠错（Unconstrained Error Correction）

基本思路：

自由创作模式：让ChatGPT像“语言医生”自由修改候选句子，生成全新修正结果。关键输入：提供ASR的多个错误候选（N-best列表），而非仅第一错误结果。

为什么需要N-best列表？

类比：就像让医生同时看到“轻打开空调”“请打开空调”“请打开空调”三个误诊报告，比只看第一份报告更容易发现正确诊断。实验发现：仅用第一错误候选（例1），ChatGPT可能越改越错；用N-best列表（例1+2+3），纠错成功率更高。 3.1.1 零样本 vs. 单样本提示

零样本（Zero-shot）：

操作方式：直接给ChatGPT任务指令和N-best列表，不给示例。提示设计（类似图2结构）：任务：请纠正以下ASR识别错误，输出正确文本。 <hypothesis1>轻打开空调</hypothesis1> <hypothesis2>请打开空调</hypothesis2> <hypothesis3>请打开空调</hypothesis3> 注意事项：必须用标签（如<hypothesis1>）明确标注每个候选，用数字或纯文本效果差。这相当于给ChatGPT“结构化输入”，帮助它理解上下文关系。

单样本（1-shot）：

操作方式：在指令中添加一个示例，教ChatGPT如何纠错。示例（假设来自其他数据）：示例输入： <hypothesis1>今天天气真遭糕</hypothesis1> <hypothesis2>今天天气真糟糕</hypothesis2> 示例输出：今天天气真糟糕作用：相当于告诉ChatGPT：“请模仿这个例子，只修改错误部分，保持句子长度不变”。避免它过度发挥（例如把“空调”改成“制冷装置”）。 3.2 约束纠错（N-best Constrained Correction）

核心限制：强制要求ChatGPT的输出必须来自ASR提供的N-best列表，不能自由生成。

适用场景：当ASR候选列表中已包含正确答案（如例2），但排序不是第一时。约束纠错相当于“从ASR的错误答案中找金子”。

3.2.1 选择法（Selective Approach）操作方式：让ChatGPT扮演“评委”，从N-best列表中直接选择最佳答案。提示示例：任务：请从以下选项中选出最合理的句子。 <option1>轻打开空调</option1> <option2>请打开空调</option2> <option3>请打开空调</option3> 输出格式：<option?>答案</option?> 优势：结合ChatGPT的语言理解能力，像考试时排除错误选项。例如，它能判断“轻打开”不符合常理，选择“请打开空调”。

3.2.2 最近映射法（Closest Mapping）

两步走策略：

先自由纠错：让ChatGPT生成修正结果（例如输出“请打开空调”）。反向匹配：在N-best列表中找与ChatGPT输出最相似的候选（计算编辑距离）。

编辑距离解释：衡量两个文本需要多少次增/删/改才能相同。例如：

ChatGPT输出：“请打开空调”候选2：“请打开空调” → 编辑距离=0（完全一致）候选1：“轻打开空调” → 编辑距离=1（“轻”改“请”）

结果：选择候选2作为最终答案。

图2（提示示例）的功能解析（假设图中展示的是零样本+单样本的提示模板）

任务说明：明确要求ChatGPT纠正ASR错误。结构化输入：用XML式标签包裹每个候选，保持顺序（按ASR置信度排序）。示例展示（1-shot）：输入部分显示ASR的多个错误候选输出部分展示如何仅修改错误部分（例如修正“遭糕”为“糟糕”）。

方法对比表

方法核心特点适用场景无约束纠错（零样本）自由生成，依赖N-best上下文理解ASR候选中无正确答案，需语义重构无约束纠错（1样本）通过示例引导修正方向避免过度修正，保持文本简洁性选择法从ASR候选中选择最佳答案正确答案已在候选列表中最近映射法先自由修正，再匹配最近候选平衡创造性与ASR原始输出可靠性

总结：

无约束纠错：像让作家重写病句，允许自由发挥。约束纠错：像让编辑从几个草稿中选最佳版本，或找到最接近作家初稿的版本。ChatGPT的作用：既是作家（生成新文本），又是编辑（筛选现有文本），通过多角度分析提升ASR准确率。 4. EXPERIMENTS 4.1 实验设置（Setup）

实验目标验证ChatGPT能否像专业纠错模型（如T5）一样，有效修正两种主流语音识别系统（Conformer-Transducer和Whisper）的错误。

实验对象：

两个ASR系统：

Conformer-Transducer：基于960小时有声书数据训练的专业模型（类似“专业校对员”）。Whisper small.en：OpenAI用68万小时网络语音训练的通用模型（类似“全能翻译官”）。

三个测试集（详见表1）：

数据集特点类比场景LibriSpeech有声书语音（与训练数据同领域）考试中的“模拟题”TED-LIUM3TED演讲（跨领域，口语化）考试中的“即兴演讲题”Artie Bias用户朗读的多样化语音（含口音/背景噪音）考试中的“实战应用题”

表1（数据集详情）解析

数据集语音时长句子数领域特点挑战点LibriSpeech5.4h2,620清晰朗读，专业文本低频词识别（如学术术语）TED-LIUM35.7h2,950即兴演讲，口语化表达非正式表达、填充词（um, uh）Artie Bias1.3h1,130多样化口音、背景噪音语音质量参差不齐

关键实验设计：

输入方式：

ASR系统对每段语音生成10个候选结果（N-best列表），选取前5名输入ChatGPT。例如：ASR听到“打开窗户”可能输出候选：①“打开床户” ②“打开窗户” ③“大开车库”…

对照组：

N-best T5模型：专门为每个ASR系统训练的纠错模型（需大量训练数据）。ChatGPT方法：零样本/单样本提示 + 两种约束策略（选择法/最近映射法）。 4.2 实验结果（Experimental Results）

核心发现：

同领域数据（LibriSpeech）：

Conformer-Transducer： ChatGPT（1-shot最近映射法）词错率6.24%，媲美T5模型（6.15%）。类比：专业校对员（T5）得90分，临时外援（ChatGPT）得89分，表现接近。 Whisper： ChatGPT最佳表现（7.03%）弱于T5（6.39%），但仍有提升。问题：ChatGPT倾向于过度删除词语（如把“请打开”误删为“打开”）。

跨领域数据（TED/Artie）：

Conformer-Transducer： ChatGPT（1-shot自由纠错）在TED数据集上提升25.1%，甚至超越ASR系统本身的“理论最佳表现”（Oracle WER）。类比：外援在陌生题型中反而比专业选手表现更好，展现强大泛化能力。 Artie Bias数据集： ChatGPT（零样本）词错率从23.67%→18.73%，优于T5模型。原因：ChatGPT通过海量语料更好处理口音/噪音场景。

方法对比：

方法优势场景局限性T5微调模型同领域数据表现最佳需重新训练，无法跨系统使用ChatGPT零样本即插即用，跨领域表现优异对ASR系统特性不敏感（如Whisper）ChatGPT单样本通过示例减少过度修正示例选择不当可能干扰效果最近映射法平衡创造性与ASR可靠性依赖N-best列表包含正确答案

Table 2

表格核心结论 ChatGPT纠错在跨领域数据（如TED演讲）表现惊艳，但对Whisper模型效果有限。专业纠错模型T5在自家训练数据（LibriSpeech）上更稳定。

关键概念解释

术语含义生活类比CTrConformer-Transducer模型“专业校对员”（针对有声书训练）WhsWhisper模型“全能翻译官”（海量网络数据训练）Oracle理论最佳结果（直接选N-best中的正确答案）“开卷考试满分答案”T5 (uncon)无约束纠错模型“自由发挥的改卷老师”0-shot零样本提示（不给示例）“让新手直接上岗”

核心数据解读 1. LibriSpeech（有声书，同领域）

方法CTr错误率Whs错误率结论原始ASR6.90%7.73%Whisper略逊于CTrT5专业纠错6.15%6.39%T5更稳定（专业选手主场优势）ChatGPT-1shot最近映射6.24%7.03%ChatGPT逼近T5，但Whisper拖后腿

生活案例：

CTr把"九点"错听成"酒点"，T5精准修正Whisper把"鲜橙"错听成"县城"，ChatGPT有时会改成"鲜城"（半对半错）

2. TED-LIUM3（演讲，跨领域）

方法CTr错误率Whs错误率结论原始ASR13.53%3.89%Whisper意外表现优异（？数据可能有误）ChatGPT-1shot自由纠错10.34%8.54%ChatGPT拯救CTr，降低25%错误

矛盾点解析：

表格中Whisper原始错误率3.89%极低，可能为排版错误（实际应为更高值）合理推测：TED场景下，Whisper因训练数据广泛表现较好，但ChatGPT仍能提升

3. Artie Bias（噪音/口音）

方法CTr错误率Whs错误率结论原始ASR23.67%9.03%Whisper抗噪能力更强ChatGPT-0shot自由纠错18.73%8.30%ChatGPT显著提升CTr，但对Whisper帮助有限

根本原因：

Whisper候选中含大量乱码（如"请打*开空调"）→ ChatGPT无力回天CTr错误明确（如"鲜橙"→"县城"）→ ChatGPT易修正

实践指南

同领域清晰语音：

优先用T5专业纠错（错误率最低）次选ChatGPT-1shot最近映射（免训练，效果接近）

跨领域/演讲场景：

必选ChatGPT自由纠错（语言理解力碾压传统模型）

带噪音/口音环境：

Whisper+ChatGPT组合（抗噪+语言修正）避免使用CTr原始输出

总结启示

ChatGPT像语言医生：擅长疑难杂症（跨领域错误），但需要"病例档案"（N-best列表）T5像专科医生：在熟悉领域（训练数据）更精准，但无法快速适应新病症ASR系统选择比纠错更重要：Whisper本身抗噪强，CTr需要纠错器"续命"

总结

ChatGPT就像临时外聘专家：在陌生领域（TED演讲）表现惊艳，甚至超越本地专家（T5）。但面对特定系统（如Whisper）可能“水土不服”，需要结合系统特性调整策略。传统T5模型像专业教练：在熟悉题型（LibriSpeech）中稳扎稳打，但无法快速适应新领域。实验启示：轻量级方案：对跨领域/低资源场景，直接用ChatGPT零样本纠错。重度优化方案：对固定ASR系统，仍需要训练专用纠错模型（如T5）。 4.3. Discussion

关键问题：为什么ChatGPT有时纠错效果差？通过分析错误类型和ASR系统特性，发现两大原因：

1. ChatGPT的"过度删减"问题现象：

Conformer-Transducer系统： ChatGPT自由纠错（零样本）减少了替换错误（如"九"→"酒"），但删减错误增加（如漏掉"的"）Whisper系统： ChatGPT纠错后删减错误更严重，尤其在TED演讲数据集（口语化表达）

根本原因：

ChatGPT的语言洁癖：倾向于生成简洁流畅的文本示例： ASR输出：“嗯，那个，我想说今天天气真好” ChatGPT纠错：“今天天气真好”（删除填充词"嗯，那个，我想说"）→ 虽然更流畅，但改变了原意

解决方案：

单样本提示：通过示例告诉ChatGPT"不要随便删减"（如保留"那个"）约束纠错法：强制从ASR候选中选择（避免自由删减）

2. Whisper系统的"候选列表陷阱" 现象：

Whisper生成的N-best候选列表多样性不足示例：语音内容：“气候变化是真实存在的” Whisper候选： ① 气候变化是真实存在的 ② 气候变化真实存在 ③ 气候变化是真实存在的（重复） ④ 气候变化是真实的 ⑤ 气候变化真实存在（重复）

导致问题：

候选列表信息量低：多数候选只是重复或细微调整ChatGPT无从选择：就像考试时所有选项都似是而非，容易选错

数据佐证：

交叉词错率（Cross WER）：衡量候选列表内部差异 Whisper的交叉词错率高达89.7%（TED数据集），而Conformer仅42.1%解读：Whisper候选之间差异过大（如有的候选漏词，有的加词）

总结

ChatGPT像文字编辑：遇到优质初稿（Conformer候选）能锦上添花面对混乱草稿（Whisper候选）可能越改越糟 ASR系统像学生： Conformer是"认真学生"，错误明确易修正Whisper是"创意学生"，答案天马行空难捉摸实践启示：先用N-best列表质量检测工具（如交叉词错率）根据ASR特性选择纠错策略，不可一刀切

Table 3 表格背景对比两种语音识别系统（Transducer 和 Whisper）的纠错效果，展示ChatGPT如何通过分析它们的候选答案（Hyp-1到Hyp-5）进行纠错。

案例原文（Reference Text） “now that that blew my mind and you know it took a lot of preparation we had to build cameras and lights…” 中文模拟： “当时那个发现让我震惊，要知道我们花了很多准备，必须搭建摄像机和灯光…”

Transducer模型的纠错过程 ASR候选错误：

候选错误内容（类比中文）错误类型Hyp1“blue我的认知” → 正确应为"震惊（blew）"单词替换（blue→blew）Hyp2“to look准备” → 正确应为"took准备"动词错误（look→took）Hyp3“to talk准备” → 动词错误语法错误Hyp4“blow我的认知” → 时态错误（blow→blew）时态错误Hyp5“to a lot准备” → 介词错误（a→of）介词缺失

ChatGPT纠错结果： “now that the blew my mind…” 成功修正：

将Hyp1的"blue"纠正为"blew"（震惊）遗留问题：错误添加冠词"the"（原文无"the"）→ 插入错误

Whisper模型的纠错灾难 ASR候选混乱：

候选错误内容（类比中文）问题类型Hyp2“希望顶替（hopefully top along）”无意义短语Hyp3正确但重复出现候选冗余Hyp4“benefit to your…”插入无关内容Hyp5“maybe!!!”乱码与感叹号

ChatGPT纠错结果： “now that~~!!! blew my mind and we had二维码…” 严重错误：

保留乱码"!!!" 和"二维码"（完全无关）删除关键连接词"you know" → 信息丢失

核心结论

Transducer：

候选错误类型明确（如单词拼写、语法），ChatGPT能有效修正。问题：偶尔过度修正（如加"the"）。

Whisper：

候选列表质量低下（乱码、重复、无关内容），误导ChatGPT。结果：纠错后比原始错误更糟。

类比：

Transducer 像学生写作文时有少量错别字，老师（ChatGPT）容易批改。Whisper 像学生交了一堆涂鸦和乱码，老师无从下手，只能胡乱批注。

启示

ASR候选质量决定纠错上限：如果候选列表本身混乱（如Whisper），大模型也无法补救。ChatGPT适用场景：适合修正系统性错误（如拼写/语法），而非处理乱码或逻辑混乱文本。

Table 4展示了ChatGPT在不同设置下对两种ASR模型输出纠错结果的词错误率（WER）细分

Table 4：ChatGPT在LibriSpeech数据集上对Transducer和Whisper输出的WER细分表头含义：“All”代表总体情况，“Sub”“Del”“Ins”分别表示替换错误率、删除错误率、插入错误率。行指标解释：“Transducer”和“Whisper”分别代表两种不同的ASR模型。每种模型下又细分了不同的纠错方法，如“ASR baseline”表示该模型未经过ChatGPT纠错的原始输出情况；“ChatGPT (0-shot uncon)”表示使用ChatGPT进行零样本无约束纠错；“ChatGPT (1-shot uncon)”表示使用ChatGPT进行1样本无约束纠错；“ChatGPT (1-shot closest)”表示使用ChatGPT进行1样本最近映射约束纠错。列指标解释：“WER”代表词错误率（Word Error Rate），是衡量ASR系统性能的重要指标，数值越低表示识别结果与正确文本的差异越小，性能越好。“Sub”“Del”“Ins”分别代表替换（Substitution）、删除（Deletion）、插入（Insertion）错误率，它们是WER的细分指标，用于分析错误产生的具体类型占比，能帮助研究者了解不同纠错方法对各类错误的影响。数据解读：以“Transducer”部分为例，“ASR baseline”行显示，原始Transducer模型输出的总体WER为6.9%，其中替换错误占5.3%，删除错误占0.7%，插入错误占0.8% 。“ChatGPT (0-shot uncon)”行表示，零样本无约束纠错时，总体WER为6.6%，替换错误率降至4.6%，但删除错误率升至1.3%，插入错误率不变。这表明零样本无约束纠错能减少替换错误，但会引入更多删除错误。

Table 5统计了两种ASR模型生成的5-best列表的相关指标，用于分析ChatGPT在ASR纠错中表现差异的原因。

Table 5：Conformer-Transducer和Whisper模型在不同测试集上生成的5-best列表统计表头含义：“Uniq”指测试集中一个5-best列表内平均的唯一假设数量，用于衡量列表多样性；“Cross WER”衡量5-best列表中假设之间的差异，计算保留唯一假设后，两两假设间的WER并汇总。行指标解释：“Data”列表示不同的测试数据集，包括LibriSpeech（LB）、TED-LIUM3（TED）和Artie。“Model”列区分Conformer-Transducer和Whisper这两种ASR模型，展示它们在不同数据集上的5-best列表统计情况。列指标解释：“Uniq”代表唯一性（Uniqueness），指在测试集中，一个5-best列表内平均的唯一假设数量。该指标用于衡量5-best列表的多样性，数值越接近5，表示列表中不同假设越多，多样性越好；数值越低，说明重复的假设越多。“Cross WER”衡量的是5-best列表中假设之间的差异程度。具体计算方式是，先保留列表中的唯一假设，然后对每一对假设计算它们之间的WER，并将所有结果汇总。这一指标可以帮助分析不同模型生成的5-best列表中假设之间的差异大小，差异越大，说明假设之间的变化越复杂，可能会对基于这些假设的纠错方法产生不同影响。数据解读：在LibriSpeech测试集上，Transducer模型的“Uniq”值为4.9，接近5-best列表大小，表明其5-best列表多样性较好；Whisper模型的“Uniq”值仅3.0，说明其列表中重复假设较多。从“Cross WER”的删除和插入率看，Whisper在各测试集上都高于Transducer，尤其在TED-LIUM3测试集上差异明显，意味着Whisper的5-best列表中假设差异可能源于无关词的增减，这会误导ChatGPT，影响纠错效果。 4.4. Ablation and Analysis（消融分析）

这部分主要是进一步探究ChatGPT在自动语音识别（ASR）纠错中性能提升的来源。研究者尝试构建了一个基于ROVER的系统，想通过加权投票的方式来整合N-best列表中的假设（也就是ASR给出的多个可能识别结果），但结果发现，这个系统的表现还不如ASR的基线结果。这就说明，ChatGPT并不是简单地对N-best列表进行投票处理，而是利用了它隐含学习到的世界知识，基于给定的输入信息来生成纠正后的ASR文本。

Table 6（表6）：以Conformer - Transducer模型为例，研究N-best列表大小对ChatGPT纠错效果的影响。

行指标解释：“Method”列表示不同的纠错方法，“ASR baseline”是未经过ChatGPT纠错的原始模型结果；“0-shot uncon”表示零样本无约束纠错，“0-shot select”表示零样本选择纠错。“Input”列表示输入ChatGPT的N-best列表的大小，如“1-best”就是只输入排名第一的假设，“3-best”输入排名前三的假设，以此类推。列指标解释：“LB”“TED”“Artie”分别代表不同的测试集，表格中的数值代表在相应测试集下，不同方法和输入大小对应的词错误率（WER），WER数值越低，说明识别结果越准确。

从表中结果来看，对于“0-shot uncon”方法，当只输入“1-best”时，ChatGPT因为信息不足，会对输入做很多不必要的修改，使得WER较高；随着N-best列表大小增加，它能更好地比较假设之间的差异，从而进行纠错，WER有所降低。而对于“0-shot select”方法，N-best列表的大小对结果影响较小，因为ChatGPT主要是进行选择，而不是生成整个纠正后的假设。

Fig. 3（图3）：展示了使用1-shot closest mapping（1样本最近映射）方法时，选择N-best列表中与ChatGPT输出最相似的ASR假设后，ASR基线和纠错后的WER结果。

横坐标解释：“Hyp 1”到“Hyp 5”表示从N-best列表中选择的假设序号，即选择与ChatGPT输出最相似的假设，分别是排名第1到第5的假设。纵坐标解释：“WER(%)”表示词错误率的百分比，数值越低代表识别效果越好。图例解释：蓝色柱子代表ASR Baseline（即原始ASR模型的结果）的WER；红色柱子代表1-shot closest（经过1样本最近映射纠错后）的WER。

从图中可以看出，当选择Hyp 1时，纠错后的WER和ASR基线一样，没有变化；当选择Hyp 2时，纠错后性能提升最大；随着选择假设序号的增加，性能提升逐渐下降，到选择Hyp 5时，纠错后的WER和原始ASR基线相同。

5. CONCLUSIONS（结论）

这部分总结了论文的研究内容和主要发现。论文研究了利用强大的生成式大语言模型ChatGPT，在零样本和1样本设置下进行ASR纠错的情况。系统仅使用ASR的N-best列表信息，就能通过选择N-best中的一个假设、约束性纠错或无约束方式进行纠错。

研究发现，对于两种先进的ASR系统架构（Transducer和AED），提出的方法总体上比ASR基线有性能提升。在Transducer模型输出上，ChatGPT的表现与基于T5基础模型的定制ASR纠错系统相似或更好。但对于AED系统，由于AED的N-best列表存在固有问题，ChatGPT的表现不如T5 。

标签：

论文阅读：CANGENERATIVELARGELANGUAGEMODELSPERFORMASRERRORCORR由讯客互联游戏开发栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“论文阅读：CANGENERATIVELARGELANGUAGEMODELSPERFORMASRERRORCORR”

上一篇
【C语言显示Linux系统参数】

下一篇
制作安装win10系统U盘详细步骤