半字节交换 c语言,c/c++开发分享SSE字节和半字交换-CSDN博客

本文介绍了如何使用SSSE3指令集中的pshufb指令，通过C语言实现高效的字节和半字交换。通过示例代码展示了如何构建shuffle掩码，以及如何优化循环以提高吞吐量。文章还讨论了gcc编译器生成的代码效率，并提出了展开循环以减少延迟的建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

pshufb (SSSE3)应该快于2个移位和一个OR。此外，稍微修改shuffle掩码将启用endian转换，而不仅仅是字交换。

窃取Paul R的function结构，只需替换矢量内在函数：

void word_swapping_ssse3(uint32_t* dest, const uint32_t* src, size_t count) { size_t i; __m128i shufmask = _mm_set_epi8(13,12, 15,14, 9,8, 11,10, 5,4, 7,6, 1,0, 3,2); // _mm_set args go in big-endian order for some reason. for (i = 0; i + 4 <= count; i += 4) { __m128i s = _mm_loadu_si128((__m128i*)&src[i]); __m128i d = _mm_shuffle_epi8(s, shufmask); _mm_storeu_si128((__m128i*)&dest[i], d); } for ( ; i < count; ++i) // handle residual elements { uint32_t w = src[i]; w = (w >> 16) | (w << 16); dest[i] = w; } }

pshufb可以有一个内存操作数，但它必须是shuffle掩码，而不是要洗牌的数据。因此，您不能将其用作混乱加载。：/

gcc不会为循环生成很好的代码。主循环是

# src: r8. dest: rcx. count: rax. shufmask: xmm1 .L16: movq %r9, %rax .L3: # first-iteration entry point movdqu (%r8), %xmm0 leaq 4(%rax), %r9 addq $16, %r8 addq $16, %rcx pshufb %xmm1, %xmm0 movups %xmm