GCC 12 (minGW 64)：如何启用融合乘加代码生成

8 浏览2023年3月5日

匿名的 2023年3月6日

0 Comments

如果对我的问题的答案很明显，我提前道歉，但请相信我，我已经整天在谷歌上搜索并在这里也进行了搜索，但没有找到任何相关的内容。\n我在我的x64 windows i7设置上使用GCC 12（minGW x64）。我似乎无法使GCC生成任何浮点乘加指令。\n最简单的情况：\n

float func(float a, float b, float c)
{
   return a*b+c;
}

\n生成的汇编代码如下：\n

mulss %xmm1, %xmm0
addss %xmm2, %xmm0
ret

\n没有融合的乘加指令！\n编辑：此输出是使用`-O3`选项生成的。\n我尝试了所有可能的优化和cpu目标选项，包括`-ffast-math`和`-march=corei7`，但都没有成功。\n编辑：对不起，我犯了个错误，在尝试`-mfma`时打了个错字，我以为它已经设置了，但实际上没有。对不起在我问题的第一个版本中错误地声明我尝试过它。\n我是缺少了什么基本的东西吗？我如何让GCC自动生成这些乘加指令？\n然后我想我必须显式地做到这一点，所以我尝试了fmaf()函数，但它只是结果是跳转到一个库函数，这甚至更糟糕！\n更新：看起来，除了`-O3`（我默认总是使用），我还必须设置`-mfma`或`-march=haswell`，才能生成fma指令，这（我可以通过一些基准测试来检查）确实在时间关键代码中带来了一些实质性的速度提升，在那里有一连串的求和和乘法。\n我不完全理解的是为什么简单地使用`-march=corei7`或`-march=corei7-avx`是不够的。如果fma生成被禁用是因为MinGW中的堆栈对齐错误（如有人在评论中提到的），那么即使指定了`-march=haswell`，它也应该被禁用...\n谢谢。

融合乘法加法和默认舍入模式

FMA3在GCC中的启用方式

自动在MSVC中生成FMA指令

如何强制GCC生成特定的浮点指令

如何在SSE/AVX中使用Fused Multiply-Add（FMA）指令

为什么使用-O0时，clang生成的汇编代码效率低下（对于这个简单的浮点数求和）？

为什么LLVM Passes不优化浮点指令？

为什么使用浮点类型时，O3优化不会提高性能？

为什么如果我优化大小而不是速度，GCC会生成15-20％更快的代码？

为什么GCC不把a*a*a*a*a*a优化为(a*a*a)*(a*a*a)？

如何让 LLVM 优化以下浮点方程

为什么gcc不能将_mm256_loadu_pd解析为单个的vmovupd？

SSE：使用_mm_add_epi32没有看到加速效果

使用gcc来清理x86_64汇编输出吗？

真的不太理解gcc如何初始化数组

自动矢量化对于双精度和ffast-math的应用

高效的4x4矩阵乘法（C与汇编）

为什么在没有优化的情况下，数组的循环运行速度比gcc -O3更快？数组是通过malloc + 零化循环进行初始化的。

C代码循环性能

在汇编中打印一个浮点数

GCC 12 (minGW 64)：如何启用融合乘加代码生成

0 答案