半字节交换 c语言,c/c++开发分享SSE字节和半字交换

本文介绍了如何使用SSSE3指令集中的pshufb指令,通过C语言实现高效的字节和半字交换。通过示例代码展示了如何构建shuffle掩码,以及如何优化循环以提高吞吐量。文章还讨论了gcc编译器生成的代码效率,并提出了展开循环以减少延迟的建议。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

pshufb (SSSE3)应该快于2个移位和一个OR。 此外,稍微修改shuffle掩码将启用endian转换,而不仅仅是字交换。

窃取Paul R的function结构,只需替换矢量内在函数:

void word_swapping_ssse3(uint32_t* dest, const uint32_t* src, size_t count) { size_t i; __m128i shufmask = _mm_set_epi8(13,12, 15,14, 9,8, 11,10, 5,4, 7,6, 1,0, 3,2); // _mm_set args go in big-endian order for some reason. for (i = 0; i + 4 <= count; i += 4) { __m128i s = _mm_loadu_si128((__m128i*)&src[i]); __m128i d = _mm_shuffle_epi8(s, shufmask); _mm_storeu_si128((__m128i*)&dest[i], d); } for ( ; i < count; ++i) // handle residual elements { uint32_t w = src[i]; w = (w >> 16) | (w << 16); dest[i] = w; } }

pshufb可以有一个内存操作数,但它必须是shuffle掩码,而不是要洗牌的数据。 因此,您不能将其用作混乱加载。 :/

gcc不会为循环生成很好的代码。 主循环是

# src: r8. dest: rcx. count: rax. shufmask: xmm1 .L16: movq %r9, %rax .L3: # first-iteration entry point movdqu (%r8), %xmm0 leaq 4(%rax), %r9 addq $16, %r8 addq $16, %rcx pshufb %xmm1, %xmm0 movups %xmm

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值