openjdk · Bhavana-Kilambi · Jan 28, 2025 · Jun 13, 2025 · shqking · Feb 18, 2025
diff --git a/src/hotspot/cpu/aarch64/aarch64.ad b/src/hotspot/cpu/aarch64/aarch64.ad
@@ -881,6 +881,16 @@ reg_class vectorx_reg(
     V31, V31_H, V31_J, V31_K
 );
 
+// Class for vector register V17
+reg_class v17_veca_reg(
+    V17, V17_H, V17_J, V17_K
+);
+
+// Class for vector register v18
-// Class for vector register v18
+// Class for vector register V18
-// Class for vector register v18
+// Class for vector register V18
+reg_class v18_veca_reg(
+    V18, V18_H, V18_J, V18_K
+);
+
 // Class for 128 bit register v0
 reg_class v0_reg(
     V0, V0_H
@@ -4974,6 +4984,26 @@ operand vReg()
   interface(REG_INTER);
 %}
 
+operand vReg_V17()
+%{
+  constraint(ALLOC_IN_RC(v17_veca_reg));
+  match(vReg);
+
+  op_cost(0);
+  format %{ %}
+  interface(REG_INTER);
+%}
+
+operand vReg_V18()
+%{
+  constraint(ALLOC_IN_RC(v18_veca_reg));
+  match(vReg);
+
+  op_cost(0);
+  format %{ %}
+  interface(REG_INTER);
+%}
+
 operand vecA()
 %{
   constraint(ALLOC_IN_RC(vectora_reg));

diff --git a/src/hotspot/cpu/aarch64/aarch64_vector.ad b/src/hotspot/cpu/aarch64/aarch64_vector.ad
@@ -245,6 +245,18 @@ source %{
           return false;
         }
         break;
+      // The "tbl" instruction for two vector table is supported only in Neon and SVE2. Return
+      // false if vector length > 16B but supported SVE version < 2.
+      // For vector length of 16B, generate SVE2 "tbl" instruction if SVE2 is supported, else
+      // generate Neon "tbl" instruction to select from two vectors.
+      // Currently, as we support only vector sizes of 8B and 16B, we disable this operation for
+      // T_LONG and T_DOUBLE on Neon as "mul" does not support 2D arrangement. However, these
+      // types are supported on machines with UseSVE == 2.
+      case Op_SelectFromTwoVector:
+        if (UseSVE < 2 && (type2aelembytes(bt) == 8 || length_in_bytes > 16)) {
+        return false;
+        }
+        break;
       default:
         break;
     }
@@ -7150,3 +7162,38 @@ instruct vexpandBits(vReg dst, vReg src1, vReg src2) %{
   %}
   ins_pipe(pipe_slow);
 %}
+
+// --------------------------------SelectFromTwoVector -----------------------------
+
+instruct vselect_from_two_vectors_SIFNeon(vReg dst, vReg_V17 src1, vReg_V18 src2,
-instruct vselect_from_two_vectors_SIFNeon(vReg dst, vReg_V17 src1, vReg_V18 src2,
+instruct vselect_from_two_vectors_HS_neon(vReg dst, vReg_V17 src1, vReg_V18 src2,
-instruct vselect_from_two_vectors_SIFNeon(vReg dst, vReg_V17 src1, vReg_V18 src2,
+instruct vselect_from_two_vectors_HS_neon(vReg dst, vReg_V17 src1, vReg_V18 src2,
+                                          vReg index, vReg tmp1, vReg tmp2) %{
+  predicate((Matcher::vector_element_basic_type(n) == T_SHORT ||
+            type2aelembytes(Matcher::vector_element_basic_type(n)) == 4) &&
+            (UseSVE < 2 || Matcher::vector_length_in_bytes(n) < 16));
+  match(Set dst (SelectFromTwoVector (Binary index src1) src2));
+  effect(TEMP_DEF dst, TEMP tmp1, TEMP tmp2);
+  format %{ "vselect_from_two_vectors_SIF $dst, $src1, $src2, $index\t# vector (4S/8S/2I/4I/2F/4F). KILL $tmp1, $tmp2" %}
+  ins_encode %{
+    BasicType bt = Matcher::vector_element_basic_type(this);
+    uint length_in_bytes = Matcher::vector_length_in_bytes(this);
+    __ select_from_two_vectors_SIFNeon($dst$$FloatRegister, $src1$$FloatRegister,
+                                       $src2$$FloatRegister,$index$$FloatRegister,
+                                       $tmp1$$FloatRegister, $tmp2$$FloatRegister,
+                                       bt, length_in_bytes);
+  %}
+  ins_pipe(pipe_slow);
+%}
+
+instruct vselect_from_two_vectors(vReg dst, vReg_V17 src1, vReg_V18 src2, vReg index) %{
+  predicate(Matcher::vector_element_basic_type(n) == T_BYTE ||
+           (UseSVE == 2 && Matcher::vector_length_in_bytes(n) >= 16));
+  match(Set dst (SelectFromTwoVector (Binary index src1) src2));
+  format %{ "vselect_from_two_vectors $dst, $src1, $src2, $index" %}
+  ins_encode %{
+    BasicType bt = Matcher::vector_element_basic_type(this);
+    uint length_in_bytes = Matcher::vector_length_in_bytes(this);
+    __ select_from_two_vectors($dst$$FloatRegister, $src1$$FloatRegister, $src2$$FloatRegister,
+                               $index$$FloatRegister, bt, length_in_bytes);
+  %}
+  ins_pipe(pipe_slow);
+%}
diff --git a/src/hotspot/cpu/aarch64/aarch64_vector_ad.m4 b/src/hotspot/cpu/aarch64/aarch64_vector_ad.m4
@@ -235,6 +235,18 @@ source %{
           return false;
         }
         break;
+      // The "tbl" instruction for two vector table is supported only in Neon and SVE2. Return
+      // false if vector length > 16B but supported SVE version < 2.
+      // For vector length of 16B, generate SVE2 "tbl" instruction if SVE2 is supported, else
+      // generate Neon "tbl" instruction to select from two vectors.
+      // Currently, as we support only vector sizes of 8B and 16B, we disable this operation for
+      // T_LONG and T_DOUBLE on Neon as "mul" does not support 2D arrangement. However, these
+      // types are supported on machines with UseSVE == 2.
+      case Op_SelectFromTwoVector:
+        if (UseSVE < 2 && (type2aelembytes(bt) == 8 || length_in_bytes > 16)) {
+        return false;
+        }
+        break;
       default:
         break;
     }
@@ -5132,3 +5144,38 @@ BITPERM(vcompressBits, CompressBitsV, sve_bext)
 
 // ----------------------------------- ExpandBitsV ---------------------------------
 BITPERM(vexpandBits, ExpandBitsV, sve_bdep)
+
+// --------------------------------SelectFromTwoVector -----------------------------
+
+instruct vselect_from_two_vectors_SIFNeon(vReg dst, vReg_V17 src1, vReg_V18 src2,
+                                          vReg index, vReg tmp1, vReg tmp2) %{
+  predicate((Matcher::vector_element_basic_type(n) == T_SHORT ||
+            type2aelembytes(Matcher::vector_element_basic_type(n)) == 4) &&
+            (UseSVE < 2 || Matcher::vector_length_in_bytes(n) < 16));
+  match(Set dst (SelectFromTwoVector (Binary index src1) src2));
+  effect(TEMP_DEF dst, TEMP tmp1, TEMP tmp2);
+  format %{ "vselect_from_two_vectors_SIF $dst, $src1, $src2, $index\t# vector (4S/8S/2I/4I/2F/4F). KILL $tmp1, $tmp2" %}
+  ins_encode %{
+    BasicType bt = Matcher::vector_element_basic_type(this);
+    uint length_in_bytes = Matcher::vector_length_in_bytes(this);
+    __ select_from_two_vectors_SIFNeon($dst$$FloatRegister, $src1$$FloatRegister,
+                                       $src2$$FloatRegister,$index$$FloatRegister,
+                                       $tmp1$$FloatRegister, $tmp2$$FloatRegister,
+                                       bt, length_in_bytes);
+  %}
+  ins_pipe(pipe_slow);
+%}
+
+instruct vselect_from_two_vectors(vReg dst, vReg_V17 src1, vReg_V18 src2, vReg index) %{
+  predicate(Matcher::vector_element_basic_type(n) == T_BYTE ||
+           (UseSVE == 2 && Matcher::vector_length_in_bytes(n) >= 16));
+  match(Set dst (SelectFromTwoVector (Binary index src1) src2));
+  format %{ "vselect_from_two_vectors $dst, $src1, $src2, $index" %}
+  ins_encode %{
+    BasicType bt = Matcher::vector_element_basic_type(this);
+    uint length_in_bytes = Matcher::vector_length_in_bytes(this);
+    __ select_from_two_vectors($dst$$FloatRegister, $src1$$FloatRegister, $src2$$FloatRegister,
+                               $index$$FloatRegister, bt, length_in_bytes);
+  %}
+  ins_pipe(pipe_slow);
+%}
diff --git a/src/hotspot/cpu/aarch64/assembler_aarch64.hpp b/src/hotspot/cpu/aarch64/assembler_aarch64.hpp
@@ -4294,6 +4294,16 @@ template<typename R, typename... Rx>
   Assembler(CodeBuffer* code) : AbstractAssembler(code) {
   }
 
+  // SVE2 programmable table lookup in two vector table
+  void sve2_tbl(FloatRegister Zd, SIMD_RegVariant T, FloatRegister Zn1,
+                FloatRegister Zn2, FloatRegister Zm) {
+    starti;
+    assert(T != Q, "invalid size");
+    assert(Zn1->successor() == Zn2, "invalid order of registers");
+    f(0b00000101, 31, 24), f(T, 23, 22), f(0b1, 21), rf(Zm, 16);
+    f(0b001010, 15, 10), rf(Zn1, 5), rf(Zd, 0);
+  }
+
   // Stack overflow checking
   virtual void bang_stack_with_offset(int offset);
 

diff --git a/src/hotspot/cpu/aarch64/c2_MacroAssembler_aarch64.cpp b/src/hotspot/cpu/aarch64/c2_MacroAssembler_aarch64.cpp
@@ -2853,3 +2853,77 @@ void C2_MacroAssembler::reconstruct_frame_pointer(Register rtmp) {
     add(rfp, sp, framesize - 2 * wordSize);
   }
 }
+
+void C2_MacroAssembler::select_from_two_vectors_SIFNeon(FloatRegister dst, FloatRegister src1,
+                                                        FloatRegister src2, FloatRegister index,
+                                                        FloatRegister tmp1, FloatRegister tmp2,
+                                                        BasicType bt, unsigned vector_length_in_bytes) {
+  assert_different_registers(src1, src2, tmp1, tmp2);
+  assert(bt == T_SHORT || bt == T_INT || bt == T_FLOAT, "unsupported basic type");
+  assert(vector_length_in_bytes == 8 || vector_length_in_bytes == 16, "unsupported vector length");
+
+  // Neon "tbl" instruction only supports byte tables, so we need to look at chunks of
+  // 2B for selecting shorts or chunks of 4B for selecting ints/floats from the table.
+  // The index values in "index" register are in the range of [0, 2 * NUM_ELEM) where NUM_ELEM
+  // is the number of elements that can fit in a vector. For ex. for T_SHORT with 64-bit vector length,
+  // the indices can range from [0, 7].
+  // As an example with 64-bit vector length and T_SHORT type - let index = [2, 5, 1, 0]
+  // Move a constant 0x02 in every byte of tmp1 - tmp1 = [0x0202, 0x0202, 0x0202, 0x0202]
+  // Move a constant 0x0100 in every 2B of tmp2 - tmp2 = [0x0100, 0x0100, 0x0100, 0x0100]
+  // Multiply index vector with tmp1 to yield - dst = [0x0404, 0x0b0b, 0x0202, 0x0000]
+  // Add the multiplied result to the vector in tmp2 to obtain the byte level
+  // offsets - dst = [0x0504, 0x0c0b, 0x0302, 0x0100]
+  // Use these offsets in the "tbl" instruction to select chunks of 2B.
+
+  SIMD_Arrangement size1 = vector_length_in_bytes == 16 ? T16B : T8B;
+  SIMD_Arrangement size2 = vector_length_in_bytes == 16 ? T8H  : T4H;
+  if (bt == T_INT || bt == T_FLOAT) {
+    size2 = vector_length_in_bytes == 16 ? T4S : T2S;
+  }
+
+  switch (bt) {
+    case T_SHORT:
+      mov(tmp1, size1, 0x02);
+      mov(tmp2, size2, 0x0100);
+      break;
+    case T_INT:
+    case T_FLOAT:
+      // Similarly, for int/float the index values for the "tbl" instruction are computed to
+      // select chunks of 4B for every int/float element
+      mov(tmp1, size1, 0x04);
+      mov(tmp2, size2, 0x03020100);
+      break;
+    default:
+      ShouldNotReachHere();
+  }
+  mulv(dst, size2, index, tmp1);
+  addv(dst, size1, dst, tmp2); // "dst" now contains the processed index elements
+                               // to select a set of bytes (2B/4B) depending on the datatype
+
+  if (vector_length_in_bytes == 8) {
+    // We need to fit both the source vectors (src1, src2) in a 128-bit register as the
+    // Neon "tbl" instruction supports only looking up 16B vectors and use the Neon "tbl"
+    // instruction with one vector lookup
+    ins(src1, D, src2, 1, 0);
+    tbl(dst, size1, src1, 1, dst);
+  } else {
+    // If the vector length is 16B, then use the Neon "tbl" instruction with two vector table
+    assert(vector_length_in_bytes == 16, "must be");
+    tbl(dst, size1, src1, 2, dst);
+  }
+}
+
+void C2_MacroAssembler::select_from_two_vectors(FloatRegister dst, FloatRegister src1,
+                                                FloatRegister src2, FloatRegister index,
+                                                BasicType bt, unsigned vector_length_in_bytes) {
+  if (bt == T_BYTE && vector_length_in_bytes == 8) {
+    ins(src1, D, src2, 1, 0);
+    tbl(dst, T8B, src1, 1, index);
+  } else if (bt == T_BYTE && vector_length_in_bytes == 16 && UseSVE < 2){
+    tbl(dst, T16B, src1, 2, index);
+  } else {
+    assert(UseSVE == 2, "must be sve2");
+    SIMD_RegVariant size = elemType_to_regVariant(bt);
+    sve2_tbl(dst, size, src1, src2, index);
+  }
+}
diff --git a/src/hotspot/cpu/aarch64/c2_MacroAssembler_aarch64.hpp b/src/hotspot/cpu/aarch64/c2_MacroAssembler_aarch64.hpp
@@ -188,9 +188,16 @@
   void vector_signum_sve(FloatRegister dst, FloatRegister src, FloatRegister zero,
                          FloatRegister one, FloatRegister vtmp, PRegister pgtmp, SIMD_RegVariant T);
 
-  void verify_int_in_range(uint idx, const TypeInt* t, Register val, Register tmp);
+void verify_int_in_range(uint idx, const TypeInt* t, Register val, Register tmp);
   void verify_long_in_range(uint idx, const TypeLong* t, Register val, Register tmp);
 
   void reconstruct_frame_pointer(Register rtmp);
 
+  // Select from a table of two vectors
+  void select_from_two_vectors_SIFNeon(FloatRegister dst, FloatRegister src1, FloatRegister src2,
+                                       FloatRegister index, FloatRegister tmp1, FloatRegister tmp2,
+                                       BasicType bt, unsigned length_in_bytes);
+
+  void select_from_two_vectors(FloatRegister dst, FloatRegister src1, FloatRegister src2,
+                               FloatRegister index, BasicType bt, unsigned length_in_bytes);
 #endif // CPU_AARCH64_C2_MACROASSEMBLER_AARCH64_HPP
diff --git a/src/hotspot/share/opto/vectorIntrinsics.cpp b/src/hotspot/share/opto/vectorIntrinsics.cpp
@@ -2739,6 +2739,9 @@ bool LibraryCallKit::inline_vector_select_from_two_vectors() {
     index_elem_bt = T_LONG;
   }
 
+  // Check if the platform requires a VectorLoadShuffle node to be generated
+  bool need_load_shuffle = Matcher::vector_rearrange_requires_load_shuffle(index_elem_bt, num_elem);
+
   bool lowerSelectFromOp = false;
   if (!arch_supports_vector(Op_SelectFromTwoVector, num_elem, elem_bt, VecMaskNotUsed)) {
     int cast_vopc = VectorCastNode::opcode(-1, elem_bt, true);
@@ -2748,7 +2751,7 @@ bool LibraryCallKit::inline_vector_select_from_two_vectors() {
         !arch_supports_vector(Op_VectorMaskCast, num_elem, elem_bt, VecMaskNotUsed)          ||
         !arch_supports_vector(Op_VectorBlend, num_elem, elem_bt, VecMaskUseLoad)             ||
         !arch_supports_vector(Op_VectorRearrange, num_elem, elem_bt, VecMaskNotUsed)         ||
-        !arch_supports_vector(Op_VectorLoadShuffle, num_elem, index_elem_bt, VecMaskNotUsed) ||
+        (need_load_shuffle && !arch_supports_vector(Op_VectorLoadShuffle, num_elem, index_elem_bt, VecMaskNotUsed)) ||
         !arch_supports_vector(Op_Replicate, num_elem, index_elem_bt, VecMaskNotUsed)) {
       log_if_needed("  ** not supported: opc=%d vlen=%d etype=%s ismask=useload",
                     Op_SelectFromTwoVector, num_elem, type2name(elem_bt));

diff --git a/test/hotspot/gtest/aarch64/aarch64-asmtest.py b/test/hotspot/gtest/aarch64/aarch64-asmtest.py
@@ -2087,6 +2087,7 @@ def generate(kind, names):
                         ["index",    "__ sve_index(z7, __ D, r5, 5);",                     "index\tz7.d, x5, #5"],
                         ["cpy",      "__ sve_cpy(z7, __ H, p3, r5);",                      "cpy\tz7.h, p3/m, w5"],
                         ["tbl",      "__ sve_tbl(z16, __ S, z17, z18);",                   "tbl\tz16.s, {z17.s}, z18.s"],
+                        ["tbl",      "__ sve2_tbl(z16, __ S, z17, z18, z16);",             "tbl\tz16.s, {z17.s, z18.s}, z16.s"],
                         ["ld1w",     "__ sve_ld1w_gather(z15, p0, r5, z16);",              "ld1w\t{z15.s}, p0/z, [x5, z16.s, uxtw #2]"],
                         ["ld1d",     "__ sve_ld1d_gather(z15, p0, r5, z16);",              "ld1d\t{z15.d}, p0/z, [x5, z16.d, uxtw #3]"],
                         ["st1w",     "__ sve_st1w_scatter(z15, p0, r5, z16);",             "st1w\t{z15.s}, p0, [x5, z16.s, uxtw #2]"],