V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

跨越抽象鸿沟：大型语言模型直接生成汇编与机器码的可行性、挑战与未来展望

1. 绪论：从高级抽象回归底层逻辑的范式转移

在软件工程的演进历程中，抽象层次的提升一直被视为生产力进步的核心标志。从机器码到汇编语言，再到 C/C++，直至 Python 、Java 等高级语言，每一次跃迁都旨在屏蔽底层硬件的复杂性，使开发者能够专注于业务逻辑的实现。编译器（ Compiler ）作为这一过程中的绝对权威，承担着将人类可读的高级意图确定性地转化为机器可执行指令的重任。然而，随着大型语言模型（ Large Language Models, LLMs ）的爆发式发展，一个反直觉却极具颠覆性的问题浮出水面：我们是否可以绕过高级语言和传统编译器的中间层，直接利用 LLM 生成汇编代码甚至二进制机器码？

这一问题的提出并非空穴来风，而是基于对现有计算范式局限性的深刻反思与对 AI 能力的重新评估。传统编译器虽然经过数十年的优化，但在面对现代复杂的指令集架构（ ISA ）时，其基于规则的启发式优化算法（ Heuristics ）往往难以遍历庞大的优化空间，容易陷入局部最优解。相比之下，LLM 作为一种概率模型，具备在高维空间中进行模式匹配和生成的能力，理论上存在突破传统编译器优化瓶颈的可能性，即所谓的“超级优化”（ Superoptimization ）。此外，在逆向工程、漏洞利用开发（ Exploit Generation ）以及特定嵌入式环境下的代码生成中，直接操作底层代码的需求始终存在且日益迫切。

本报告旨在详尽探讨 LLM 直接生成汇编语言与二进制代码的可行性、技术路径、当前面临的挑战以及未来的发展方向。我们将基于最新的研究成果，包括“CompilerEval”、“SuperCoder”、“LEGO-Compiler”等框架的实证数据，深入分析不同指令集架构（ x86 、ARM 、RISC-V ）下的生成表现，剖析分词策略（ Tokenization ）对底层代码生成的影响，并探讨这一技术路线在安全领域的双刃剑效应。

1.1 核心驱动力：为何需要“神经后端”？

在高级语言极其成熟的今天，寻求直接生成汇编或机器码的动力主要来自三个方面：

性能的极致追求（超级优化）：传统编译器（如 GCC 、LLVM ）在-O3 优化级别下虽然表现优异，但其优化策略本质上是保守的。为了保证通用性和正确性，编译器往往放弃激进的指令调度或特定的寄存器分配策略。研究表明，在特定的计算内核（ Kernel ）中，存在大量被编译器忽略的优化机会。如果 LLM 能够学习到底层硬件的执行动态，就有可能生成比编译器更高效的代码 1 。
安全与逆向工程的自动化：在网络安全领域，攻击载荷（ Payload ）通常需要以 Shellcode （机器码）的形式存在，且需要绕过各种防御机制（如 ASLR 、DEP ）。高级语言无法直接描述这些底层内存操作。同时，在分析恶意软件时，将二进制还原为可理解的汇编或伪代码是核心痛点。LLM 在这一领域的应用能够大幅降低攻防两端的技术门槛 2 。
异构计算与新架构的快速适配：随着 RISC-V 等开源架构的兴起，以及各类 AI 加速器（ NPU 、TPU ）的涌现，为每一款新硬件开发成熟的编译器后端耗资巨大且周期漫长。如果 LLM 能够通过少样本学习（ Few-Shot Learning ）快速掌握新 ISA 的语法和语义，将极大地加速新硬件的软件生态建设 4 。

然而，这一愿景的实现面临着物理与逻辑层面的双重阻碍。汇编语言的极度冗余性、对硬件状态的强依赖性、以及“差之毫厘，谬以千里”的正确性要求，都与 LLM 当前基于概率预测的本质相冲突。本报告将抽丝剥茧，从理论基础到工程实践，全方位解析这一前沿领域的现状与未来。

2. 神经底层生成的理论基础与技术瓶颈

要理解 LLM 生成汇编代码的可行性，首先必须从模型的输入表示层面入手。与自然语言或高级编程语言相比，底层代码（汇编和二进制）具有显著不同的统计特性和结构特征，这对现有的 Transformer 架构提出了独特的挑战。

2.1 分词（ Tokenization ）的语义鸿沟

分词是 LLM 处理文本的第一步，也是目前制约其在底层代码生成任务中表现的关键瓶颈之一。目前主流的 LLM （如 GPT-4 、Llama 3 、Claude ）大多采用字节对编码（ Byte-Pair Encoding, BPE ）或类似的子词（ Subword ）算法。这些算法是针对自然语言（尤其是英语）优化的，倾向于将常见的单词或词根聚合为一个 Token 。

然而，汇编语言和十六进制机器码并不遵循自然语言的构词法。

语义碎片化：在 C 语言中，while 是一个高频词，会被编码为一个 Token ，携带明确的“循环”语义。而在 x86 汇编中，实现同样逻辑可能需要 CMP 、JE 、JMP 等多条指令。对于 BPE 分词器而言，像 0x48 、0x89 这样的十六进制字节，或者 EAX 、RAX 这样的寄存器名，往往会被拆解为无意义的字符片段。例如，一个复杂的内存地址偏移量可能会被切分成等多个 Token 。这种碎片化导致模型需要消耗更多的注意力头（ Attention Heads ）来重新组合这些碎片以理解其底层含义，大大增加了推理的难度 6 。
Token 密度（ Fertility ）与上下文窗口：研究引入了“Fertility”这一指标来衡量分词效率，即平均每个语义单位（如一条指令）所需要的 Token 数量。数据表明，汇编代码的 Fertility 远高于高级语言。这意味着，同样的上下文窗口（ Context Window ，如 32k 或 128k ），能容纳的 C 代码逻辑量远大于汇编代码。对于大型程序的生成，LLM 在汇编层面上会更快地耗尽上下文，导致“遗忘”之前的寄存器状态或栈帧布局，从而引发严重的逻辑错误 7 。

分词算法

在汇编代码中的效率

粒度特征

对模型性能的影响

BPE (Byte-Pair Encoding)

中等

子词/字符混合

平衡了压缩率与粒度，但在处理 Hex 字符串时表现不佳，容易割裂数值语义。

Unigram

较高

可变粒度

压缩率最高，平均每条指令所需的 Token 数最少，有利于节省上下文窗口，提升长代码生成能力。

WordPiece

较低

子词

高 Fertility （高 Token/指令比），保留了更多细节但迅速消耗上下文，导致长依赖关系丢失。

Byte-Level (Raw)

极低

字节

完美的保真度，但序列长度爆炸式增长，使得标准 Transformer 难以处理，推理速度极慢。

表 1：不同分词策略在汇编代码生成中的比较分析 6

研究 6 指出，分词器的选择直接影响下游任务的性能。例如，在二进制相似性检测和函数签名恢复任务中，使用 Unigram 分词器的模型由于其更高效的压缩率，能够在一个窗口内捕捉更长的指令序列，从而表现优于 WordPiece 。这表明，若要实现高效的汇编生成，必须开发针对特定 ISA 优化的专用分词器，或者采用新的架构设计。

2.2 字节级模型（ Byte-Level Models ）：bGPT 的尝试

为了彻底解决文本分词带来的语义失真问题，学术界开始探索直接基于原始字节（ Raw Bytes ）训练的模型，代表作为 bGPT 。bGPT 不仅将代码视为文本，而是将其视为数据流，直接预测下一个字节。这种方法理论上能够模拟数字世界的任何二进制结构，包括机器码、图像数据甚至网络数据包 9 。

在机器码生成任务中，bGPT 展现出了独特的优势。由于直接操作二进制，它天然地理解指令编码的格式，不存在“幻觉”出不存在的指令助记符的问题（因为它是直接生成合法的 Opcode ）。此外，在逆向工程场景下，bGPT 能够更好地处理被混淆（ Obfuscated ）的代码，因为混淆通常只是改变了汇编层面的可读性，而底层的字节流逻辑模式往往依然存在。

然而，bGPT 面临着严峻的扩展性挑战（ Scalability ）。由于一个简单的 32 位整数就需要 4 个字节（ Token ）来表示，其序列长度是 BPE 模式下的数倍。这意味着在相同的计算资源下，bGPT 只能“看”到非常短的代码片段。目前的实验显示，bGPT 在处理短小的 Shellcode 或各种算法片段时表现出色，但在生成完整的大型可执行文件时，仍受限于计算复杂度和记忆能力 6 。

2.3 硬件状态的隐式追踪难题

LLM 生成汇编的另一个核心理论难点在于“隐式状态”的追踪。在高级语言中，变量的生命周期是显式的（作用域），而在汇编中，一切皆是全局的寄存器和内存状态。

寄存器分配（ Register Allocation ）：LLM 必须隐式地“记住”哪些寄存器当前被占用，哪些是空闲的。一旦发生寄存器冲突（ Clobbering ），整个程序的逻辑就会崩溃。
标志位（ Flags ）依赖：x86 架构中大量的条件跳转依赖于前一条指令产生的标志位（ ZF, CF, OF 等）。LLM 必须在生成 JZ （跳转若零）指令时，准确回溯到上一条影响 Zero Flag 的指令（如 CMP 或 TEST ）。这种跨指令的因果依赖关系对于基于注意力机制的模型来说，虽然理论上可捕捉，但在长序列中极易出现“注意力弥散”，导致逻辑断裂 5 。

综上所述，从理论层面看，LLM 生成汇编代码在表示层（分词）和逻辑层（状态追踪）都面临比高级语言更严苛的挑战。这决定了其在当前阶段更适合于“局部优化”或“短片段生成”，而非全系统的构建。

3. 架构之争：x86 、ARM 与 RISC-V 的生成性能差异

并非所有的汇编语言在 LLM 眼中的难度都是等同的。最新的实证研究揭示了一个有趣的现象：尽管互联网上关于 x86 的数据量占据绝对优势，但 LLM 在生成 RISC 风格（ ARM, RISC-V ）的汇编代码时，往往表现出更高的成功率。这一发现挑战了“数据量即真理”的 Scaling Law 传统认知，揭示了语言本身的复杂度对生成模型的影响。

3.1 CompilerEval 评测结果分析

在 IJCNN 2025 上发表的“CompilerEval”研究中，研究人员构建了一个包含线性代数、图像处理等 20 个代表性计算内核的基准测试集，评估了包括 GPT-4 、Claude-3.5-Sonnet 在内的主流模型在不同架构下的编译能力。

评测结果（ Success@1 ，即一次生成通过率）显示出显著的架构差异：

目标架构

测试硬件平台

平均通过率 (Success@1)

关键性能影响因素分析

ARM

Apple M1 Max

35.02%

语法规则统一，指令定长，显式的寄存器操作，符合逻辑直觉。

RISC-V

SpacemiT K1

32.30%

极简指令集，模块化设计，无历史包袱，利于模型学习规律。

x86-64

Xeon Gold 5218R

27.85%

变长指令，复杂的寻址模式，隐式状态多，遗留特性干扰模型判断。

表 2：CompilerEval 基准测试中不同架构的生成成功率对比 4

3.2 为什么 LLM 更擅长 RISC ？

深入分析表明，x86 架构的 CISC （复杂指令集）特性是导致 LLM 表现不佳的主要原因：

指令的歧义性与复杂性：x86 指令集历史悠久，包含大量功能重叠或语义复杂的指令。例如，MOV 指令在不同操作数类型下有完全不同的编码和行为。LLM 容易混淆这些细微差别。
隐式操作数：许多 x86 指令隐式地使用特定寄存器（如 MUL 指令默认使用 RAX 和 RDX ）。LLM 如果未能准确捕捉这些隐式规则，就会导致寄存器冲突。
变长指令带来的序列噪声：x86 指令长度从 1 字节到 15 字节不等，这在分词后产生了极不规律的 Token 序列，增加了模型学习结构的难度。

相比之下，ARM 和 RISC-V 作为 RISC 架构，具有以下优势：

正交性（ Orthogonality ）：指令的功能高度解耦，寄存器通用性强。例如 RISC-V 的指令设计非常规整，模型更容易预测下一条指令的格式。
Load-Store 架构：内存操作仅限于特定的 Load 和 Store 指令，运算指令只在寄存器间进行。这种清晰的数据流模式使得 LLM 更容易追踪数据的移动路径。
显式性：大多数操作数都是显式的，减少了模型需要“猜测”隐式状态的负担。

3.3 跨平台生成的启示

这一差异给未来的 LLM 编译器设计带来了重要启示：在训练专门针对代码生成的模型时，选择 RISC-V 作为中间表示（ IR ）或者首选生成目标可能是一个更优的策略。 模型可以先生成逻辑清晰的 RISC-V 代码，再通过确定性的转换工具（如二进制翻译器）转化为 x86 代码，从而规避直接生成 x86 带来的不确定性 4 。

此外，研究还发现，具备强推理能力（ Reasoning ）的模型（如 OpenAI o1 ）在处理复杂指令集时的提升幅度远大于普通模型。这表明，通过思维链（ Chain-of-Thought ）让模型在生成代码前先规划寄存器分配和栈布局，是弥补 x86 架构复杂性的有效手段。在 CompilerEval 的测试中，引入推理步骤后，GPT-o1 在 rotate 、resize 等复杂内核上的成功率提升了超过 30 个百分点 4 。

4. 超级优化（ Superoptimization ）：LLM 超越 GCC -O3 的实践

如果说直接生成可运行的代码是“及格线”，那么生成比传统编译器更高效的代码则是“满分目标”。这一领域被称为“超级优化”，历来是系统编程皇冠上的明珠。LLM 的介入，正在将这一曾经仅限于极小代码片段的技术推向实用化。

4.1 传统编译器的局限与 LLM 的机遇

现代编译器（如 GCC 、LLVM ）的优化器是基于数千条人工编写的规则（ Passes ）构建的。虽然强大，但它们存在根本性的局限：

相位顺序问题（ Phase Ordering Problem ）：编译器优化的顺序是固定的或基于简单启发式的，但不同的代码可能需要不同的优化顺序才能达到最优。
局部视野：编译器通常只能在基本块（ Basic Block ）或函数级别进行优化，难以跨越复杂的控制流发现全局优化机会。
保守策略：为了保证 100%的正确性，编译器不敢使用任何可能导致副作用的激进优化。

LLM 作为一个基于概率的生成器，能够在庞大的指令组合空间中进行随机搜索。它不受固定规则的束缚，有时能“顿悟”出人类专家未曾设想的指令序列。例如，利用位运算的奇技淫巧来代替昂贵的除法指令，或者利用 SIMD 指令的特殊排列来加速矩阵运算。

4.2 SuperCoder 框架解析

2025 年发表的“SuperCoder”论文展示了 LLM 在这一领域的突破性进展。研究者构建了一个包含 8,072 个汇编程序的基准测试集，并提出了一套基于强化学习（ Reinforcement Learning ）的训练框架 1 。

核心机制：基于 PPO 的强化学习

SuperCoder 并没有止步于监督微调（ SFT ），而是引入了近端策略优化（ PPO ）算法。

状态（ State ）：当前的汇编代码片段。
动作（ Action ）：重写部分指令或调整指令顺序。
奖励函数（ Reward Function ）：这是整个系统的灵魂。奖励由两部分组成：正确性奖励：通过运行测试用例，验证生成的汇编代码输出是否与基准 C 代码一致。
性能奖励：测量代码的实际运行时间（ Latency ）或吞吐量（ Throughput ），并与 gcc -O3 生成的代码进行对比。只有当代码正确且比-O3 更快时，模型才会获得正向奖励。

实验结果：

经过 PPO 微调后的 SuperCoder 模型（基于 Qwen2.5-Coder-7B ），在测试集上取得了惊人的成绩：

正确性：96.0% 的代码通过了功能测试。
加速比：生成的汇编代码平均比 gcc -O3 快 1.47 倍。
对比：这一性能显著超越了 Claude-3.7-Sonnet 和 GPT-4 等通用大模型，证明了专门针对底层优化进行 RL 训练的巨大潜力 1 。

4.3 挑战：正确性验证的“图灵陷阱”

尽管 SuperCoder 表现亮眼，但它也暴露了 LLM 超级优化的核心软肋：基于测试的正确性验证是不完备的。

传统的超级优化器（如 STOKE ）使用形式化方法（ Formal Methods ）来证明优化后的代码与原代码在逻辑上是等价的。而 SuperCoder 仅依赖有限的输入输出测试用例（ I/O Examples ）。这意味着，LLM 生成的代码可能在测试用例覆盖的范围内是正确的，但在某些边界条件下可能包含致命的 Bug （如未处理的溢出、错误的内存别名假设）。

这种“概率性正确”在高性能计算（ HPC ）或游戏引擎中或许可以接受，但在航空航天或金融交易等关键领域是绝对不可接受的。因此，未来的研究方向必然是将 LLM 的生成能力与 SMT 求解器（如 Z3 ）的验证能力相结合，形成“生成-验证”闭环 13 。

5. 神经编译架构：从“黑盒”到“模块化”

既然直接生成大规模汇编代码面临上下文窗口和正确性的双重挑战，学术界开始探索将编译任务分解的架构设计。目前的趋势是从单体生成向模块化、流程化的“神经编译系统”演进。

5.1 LEGO-Compiler：化整为零的艺术

针对 LLM 上下文窗口限制导致的“长代码崩溃”问题，LEGO-Compiler 提出了一种基于“翻译可组合性”（ Translation Composability ）的解决方案。该系统的核心思想是将复杂的 C 程序分解为微小的、可管理的单元（如基本块或单一函数），分别由 LLM 进行翻译，然后再像搭积木一样将其组装起来 15 。

技术亮点：

模块化分解：系统首先利用静态分析工具提取程序的控制流图（ CFG ），将程序切割成独立的逻辑块。
局部翻译与验证：LLM 只需要关注当前块的翻译，上下文压力骤减。每个块翻译完成后，立即通过单元测试进行验证。
链接与全局优化：所有块翻译完成后，系统负责处理标签（ Label ）跳转和数据段合并，生成最终的汇编文件。

实验表明，LEGO-Compiler 在 ExeBench 数据集上达到了超过 99%的准确率，并且能够处理的代码规模比直接翻译方法大了一个数量级。这种方法有效地规避了 Token 密度过高导致的注意力分散问题，是目前最具工程落地潜力的方案之一。

5.2 LLM-x86 与数据增强：教模型“像编译器一样思考”

另一条路径是改善训练数据的质量。Llm-x86 项目发现，通用的预训练模型缺乏对编译器内部中间表示（ IR ）和数值转换规则的理解。例如，C 语言中的常量在汇编中可能以补码形式存在，或者被编码为立即数操作数。

该研究提出了一套以数据为中心的增强流水线（ Data-Centric Augmentation Pipeline ）：

数值转换增强：在训练数据中，显式地标注出 C 代码中的数字与汇编代码中十六进制表示的对应关系，训练模型对数值类型的敏感度。
IR 辅助：将 LLVM IR 作为辅助输入（ Prompt 的一部分）喂给模型。IR 比汇编更抽象，比 C 更具体，充当了思维链的“脚手架”。

结果显示，仅使用 13B 参数的模型，在经过增强数据微调后，其 C 到 x86 的翻译准确率超过了 91%，甚至在某些指标上击败了未微调的 GPT-4 Turbo 17 。这证明了在特定领域，数据质量和领域知识的注入比单纯堆砌模型参数更有效。

5.3 LaaC （ LLM as a Compiler ）范式

LaaC 是一个更宏大的愿景，试图构建一个端到端的神经编译器。其架构不仅仅是生成代码，还包括了错误反馈循环（ Error Feedback Loop ）。当生成的汇编代码无法汇编（ Assembler Error ）或运行时崩溃时，错误信息会被回传给 LLM ，要求其进行“自我修复”（ Self-Repair ）。CompilerEval 的研究表明，这种迭代式的修复机制可以将编译成功率从 30%左右提升至更高水平，但同时也显著增加了推理成本和时间延迟 4 。

6. 安全领域的双刃剑：自动化攻防

LLM 对底层代码的掌控能力在网络安全领域引发了剧烈震荡。这把双刃剑既能赋能攻击者，也能武装防御者。

6.1 自动化漏洞利用生成（ AEG ）

在进攻端，PwnGPT 等框架展示了 LLM 在漏洞利用（ Exploit ）生成方面的可怕潜力。传统的 AEG 工具往往依赖于复杂的符号执行，效率低下且难以处理逻辑漏洞。而 PwnGPT 通过将 CTF 挑战分解为分析、生成、验证三个模块，利用 LLM 强大的语义理解能力来识别漏洞点 2 。

能力跃升：在基准测试中，PwnGPT 将漏洞利用代码的生成成功率从通用模型的 26.3%提升到了 57.9%。
Shellcode 生成：LLM 能够根据特定约束（如不仅包含空字节、必须是纯字母数字）生成多态 Shellcode （ Polymorphic Shellcode ），这使得传统的基于特征码的入侵检测系统（ IDS ）面临失效风险 19 。
低门槛化：最令人担忧的是，这种技术可能使不具备汇编知识的“脚本小子”也能通过自然语言描述生成极具破坏性的攻击代码。

6.2 恶意软件变异与逃逸

研究人员还发现，LLM 可以被用来重写恶意软件的汇编代码，在保持功能不变的前提下彻底改变其二进制指纹。例如，通过指令替换（用 ADD EAX, 1 代替 INC EAX ）、乱序执行、插入垃圾指令等手段。这种 AI 驱动的混淆（ AI-Powered Obfuscation ）使得静态分析工具几乎无法应对 20 。

6.3 防御端的应用：逆向工程辅助

在防御端，LLM 成为了逆向工程师的得力助手。

反编译解释：将 IDA Pro 或 Ghidra 反编译出的伪代码（通常变量名为 v1, v2 ，难以阅读）输入 LLM ，模型能够根据代码逻辑推断出变量的真实含义（如将 v1 重命名为 user_password ），并自动生成注释。
二进制相似性检测：利用 LLM 生成的 Embedding 向量，可以快速判断两个看似不同的二进制函数是否源自同一份源代码，这对识别已知漏洞的变种至关重要 3 。

7. 关键挑战与不可回避的局限性

尽管前景广阔，但要将 LLM 真正集成到工业级的底层开发流中，仍需跨越几座大山。

7.1 可靠性的“停机问题”

编译器最核心的契约是确定性和正确性。如果你编译同一个 C 程序 100 次，你会得到 100 个完全相同的二进制文件。但 LLM 是随机的，每次生成的汇编代码可能都不同，且可能包含微妙的 Bug 。

寄存器破坏（ Register Clobbering ）：这是最常见的错误。LLM 可能会在函数调用约定（ Calling Convention ）中犯错，忘记保存被调用者保存寄存器（ Callee-saved registers ），导致函数返回后主调函数的上下文被破坏。这种 Bug 极难调试，往往表现为程序在距离出错点很远的地方莫名崩溃 23 。
幻觉（ Hallucination ）：模型可能会编造出不存在的指令，或者错误地假设某个指令会修改标志位。在硬件层面，没有“差不多”这种说法，指令必须精确匹配规范。

7.2 上下文窗口与信息密度的博弈

汇编语言是极其冗长的。一个实现矩阵乘法的 C 函数可能只有 10 行，但对应的 AVX-512 汇编代码可能有上百行。对于大型项目，即便拥有 1M Token 上下文的模型，也难以一次性装入整个程序的汇编代码。这就导致了“迷失中间”（ Lost-in-the-Middle ）现象：模型往往能很好地处理开头和结尾的指令，但对中间部分的寄存器状态追踪能力显著下降。相比之下，C 语言的高密度特性使其更适合 LLM 处理宏观逻辑 7 。

7.3 验证的代价

为了弥补可靠性缺陷，目前的主流方案是引入“生成-验证-修复”循环。但这带来了巨大的计算成本。编译一个 Linux 内核通常只需要几分钟，但如果用 LaaC 模式，每一行汇编都需要经过 LLM 推理、汇编验证、测试运行、错误修复，时间成本可能膨胀数百倍。这使得该方案在常规软件开发中缺乏性价比，仅适用于对性能或安全性有极致要求的极小核心模块 5 。

8. 结论与未来展望

回到最初的问题：让 LLM 直接写汇编或二进制代码，是一种可行的方案吗？

答案是：在特定约束下可行，且极具潜力，但目前不能全面替代高级语言开发。

可行性判决：

**作为“超级优化器” (Strong Yes)**：在生成小型、极致性能的计算内核（如加密算法、信号处理）时，配合强化学习的 LLM 已经证明能超越人类专家和传统编译器。
**作为“逆向助手” (Strong Yes)**：在解释和分析现有二进制代码方面，LLM 已成为不可或缺的工具。
**作为“通用编译器” (No)**：由于缺乏确定性保证、巨大的计算开销以及上下文管理的困难，LLM 在可预见的未来无法取代 GCC/LLVM 构建通用应用程序。

未来展望：神经符号系统的融合

未来的底层代码生成技术，极有可能是“神经符号人工智能”（ Neuro-Symbolic AI ）的形态。

LLM 作为启发式引擎：它不直接输出最终的二进制，而是输出“优化建议”或“指令草稿”。
编译器作为验证与后端：传统的编译器架构接手 LLM 的输出，利用严格的逻辑规则检查寄存器分配、内存安全，并进行最终的代码确立。

这种混合架构将结合 LLM 的创造力（跳出局部最优）和编译器的严谨性（保证正确性），彻底改变我们构建底层软件的方式。我们正站在从“确定性编译”向“概率性编译”过渡的门槛上，虽然挑战重重，但跨越这道抽象鸿沟后的风景，无疑将是计算性能与开发效率的又一次飞跃。

Works cited

SuperCoder: Assembly Program Superoptimization with Large Language Models - arXiv, accessed February 16, 2026, https://arxiv.org/html/2505.11480v3
PwnGPT: Automatic Exploit Generation Based on ... - ACL Anthology, accessed February 16, 2026, https://aclanthology.org/2025.acl-long.562.pdf
Large language models in reverse engineering for annotating decompiled code - Aaltodoc, accessed February 16, 2026, https://aaltodoc.aalto.fi/bitstreams/d51d1096-89d2-4086-8b46-d7e75ef963f6/download
Exploring the Feasibility of End-to-End Large Language Model as a Compiler This work has been accepted by IJCNN 2025 and submitted to the IEEE for publication. Copyright may be transferred without notice, after which this version may no longer be accessible. - arXiv, accessed February 16, 2026, https://arxiv.org/html/2511.04132v1
Exploring the Feasibility of End-to-End Large Language Model as a Compiler - arXiv.org, accessed February 16, 2026, https://arxiv.org/pdf/2511.04132
How Different Tokenization Algorithms Impact LLMs and Transformer Models for Binary Code Analysis - arXiv, accessed February 16, 2026, https://arxiv.org/html/2511.03825v1
Context Length Comparison: Leading AI Models in 2026 - Elvex, accessed February 16, 2026, https://www.elvex.com/blog/context-length-comparison-ai-models-2026
Understanding LLM Context Windows: Tokens, Attention, and Challenges | by Tahir | Medium, accessed February 16, 2026, https://medium.com/@tahirbalarabe2/understanding-llm-context-windows-tokens-attention-and-challenges-c98e140f174d
Beyond Language Models: Byte Models are Digital World Simulators, accessed February 16, 2026, https://byte-gpt.github.io/
Beyond Language Models: Byte Models are Digital World Simulators - arXiv, accessed February 16, 2026, https://arxiv.org/html/2402.19155v1
LLM Reasoning Failures - Emergent Mind, accessed February 16, 2026, https://www.emergentmind.com/topics/reasoning-failures-in-llms
Improving Assembly Code Performance with Large Language Models via Reinforcement Learning - arXiv, accessed February 16, 2026, https://arxiv.org/html/2505.11480v1
SuperCoder: Assembly Program Superoptimization with Large Language Models, accessed February 16, 2026, https://openreview.net/forum?id=30iarHLvCS
Finding Missed Code Size Optimizations in Compilers using LLMs - Qeios, accessed February 16, 2026, https://www.qeios.com/read/EFW1XZ
LEGO-Compiler: Enhancing Neural Compilation Through Translation Composability, accessed February 16, 2026, https://www.researchgate.net/publication/392133220_LEGO-Compiler_Enhancing_Neural_Compilation_Through_Translation_Composability
LEGO-Compiler: Enhancing Neural Compilation Through Translation Composability - arXiv, accessed February 16, 2026, https://arxiv.org/html/2505.20356v1
Introducing Compiler Semantics into Large Language Models as Programming Language Translators: A Case Study of C to x86 Assembly - ACL Anthology, accessed February 16, 2026, https://aclanthology.org/2024.findings-emnlp.55.pdf
The New Compiler Stack: A Survey on the Synergy of LLMs and Compilers - arXiv, accessed February 16, 2026, https://arxiv.org/html/2601.02045v1
Shellcode Generation: A Resource Efficient Approach using Fine-tuned LLMs - IEEE Xplore, accessed February 16, 2026, https://ieeexplore.ieee.org/document/10723327/
AI/LLM-Generated Malware Used to Exploit React2Shell - Darktrace, accessed February 16, 2026, https://www.darktrace.com/ja/blog/ai-llm-generated-malware-used-to-exploit-react2shell
Prompts as Code & Embedded Keys | The Hunt for LLM-Enabled Malware | SentinelOne, accessed February 16, 2026, https://www.sentinelone.com/labs/prompts-as-code-embedded-keys-the-hunt-for-llm-enabled-malware/
Optimizing LLM x86 Assembly Code Comprehension through Fine-Tuning - LSU Scholarly Repository, accessed February 16, 2026, https://repository.lsu.edu/gradschool_theses/6140/
I've been trying out various LLMs for working on assembly code in my toy OS kern... | Hacker News, accessed February 16, 2026, https://news.ycombinator.com/item?id=44440983
A Deep Dive Into Large Language Model Code Generation Mistakes: What and Why?, accessed February 16, 2026, https://arxiv.org/html/2411.01414v1
Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis, accessed February 16, 2026, https://arxiv.org/html/2502.01853v1
My article on why AI is great (or terrible) or how to use it - Hacker News, accessed February 16, 2026, https://news.ycombinator.com/item?id=46557057

汇编

模型

优化

6 条回复 • 2026-02-16 22:28:56 +08:00

catazshadow

19 小时 8 分钟前 via Android

不要贴 AI 吐的垃圾字符串

tinyzilan123

19 小时 1 分钟前

AI 写的文章就不要说研究了

kenvix

18 小时 0 分钟前

这种垃圾文 arxiv 都不收

streamrx

17 小时 4 分钟前 via iPhone

拉黑了

gumayusi

16 小时 15 分钟前

**AIGC** is cheap, show me the **executable code**.

wtl

7 小时 41 分钟前

赞，很牛的思路，一杆子打到底，确实有可能效率更高

大语言模型生成低级语言的可行性