引导大语言模型生成计算机可解析内容

Constraining Large Language Model for Generating Computer-Parsable Content

作者： 王家晔 ^1,2
作者单位：

1. 华南师范大学软件学院

2. 腾讯PCG
通讯作者： 王家晔 Email:hk-shao@outlook.com
提交时间：2024-04-07 04:03:34

摘要: 大语言模型 (Large Language Models, LLMs) 能够从大量语料的上下文中学习到模式，其包括词语之间的关系、句子的结构甚至更复杂的语义和语用信息。然而，让预训练语言模型生成结构化、严格遵循约定的内容仍然是一项挑战。本文提出了一种引导LLMs生成计算机高可用内容的方案，无需微调和额外的神经网络推理，通过提前约定的上下文无关文法 (Context-Free Grammar, CFG) 引入基于协程的内容生成约束机制，在自回归模型Transformer的解码阶段引导模型采样正确的词元，以构成符合程序约定的形式语言。这将有效地提升LLMs生成目标数据结构、类型或指令的稳定性和一致性，降低应用开发和集成的难度。本文作者先通过“匹配括号对”实验验证了GPT-2和Gemma等模型在生成DSL长度分别大于36和282时错误率就达到了95%，说明了当前LLMs在特定DSL生成上的性能问题。本文作者还提出了基于协程的DSL生成框架YieldLang，并使用LLMs在多个任务数据集上进行了实验，包括JSON、Mermaid流图和函数调用表达式生成等任务。这些实验表明本文的方法相比基准，其准确率提升到了原来的109%到1160%，并且在最好的情况下能够将LLMs生成JSON的采样次数降低到基准的约16.5%，这将有效地提高LLMs生成内容对计算机程序的可用性。

大语言模型结构化内容生成计算机辅助编程约束解码协程上下文无关文法

来自： 王家晔
分类： 计算机科学 >> 计算机软件语言学及应用语言学 >> 语言学及应用语言学
说明： 初稿v6.6
投稿状态： 未投稿
引用： ChinaXiv:202403.00340 (或此版本 ChinaXiv:202403.00340V5)
DOI:10.12074/202403.00340V5
CSTR:32003.36.ChinaXiv.202403.00340.V5
推荐引用方式： 王家晔.(2024).引导大语言模型生成计算机可解析内容.中国科学院科技论文预发布平台.[ChinaXiv:202403.00340] (点此复制)

版本历史

[V5]	2024-04-07 04:03:34	ChinaXiv:202403.00340V5	下载全文
[V1]	2024-03-26 22:54:14	ChinaXiv:202403.00340v1 查看此版本	下载全文

相关论文推荐

1. 引导大语言模型生成计算机可解析内容	2024-04-21
2. 语句翻译过程的广义修辞观阐释	2024-01-26
3. 大语言模型时代的语言学研究新机遇-以歧义分析为例	2024-01-11
4. 新颖词语义韵的发生机制：“双枣树”效应的证据	2024-01-05
5. 转换概率对语音统计学习效应的独立影响	2023-11-01
6. 吴方言昆山方言点、苏州方言点和上海方言点的音类对比研究	2023-08-19
7. 音节的本质和元辅音性质新说	2023-07-18
8. 利用视觉情境范式揭示口语加工的时间进程	2023-07-12
9. 兰银官话二声方言的双字调研究	2023-04-28
10. 汉语语音意识研究：以粤方言为例	2023-04-28


公开评论匿名评论仅发给作者