simd

    7Ciepło

    2Odpowiedz

    Próbowałem swoich sił w optymalizacji kodu, który używam w sisie wewnętrznym microsoft. Jednym z największych problemów podczas optymalizacji mojego kodu jest LHS, który ma miejsce, gdy chcę użyć stał

    11Ciepło

    1Odpowiedz

    Załóżmy, że ma szereg: uint8_t arr[256]; i element __m128i x zawiera 16 bajty x_1, x_2, ... x_16 ja jak skutecznie wypełnić nowy __m128i element __m128i y z wartościami z arr zależności od war

    5Ciepło

    4Odpowiedz

    W nawiązaniu do niektórych poprzednich pytań dotyczących konwersji RGB do RGBA i ARGB BGR, chciałbym przyspieszyć RGB do BGRA konwersji z SSE. Załóżmy maszynę 32-bitową i chcielibyśmy użyć intrinsics.

    11Ciepło

    1Odpowiedz

    Mam problem z ustaleniem równoważności NEON kilku operacji Intel SSE. Wydaje się, że NEON nie jest w stanie obsłużyć całego rejestru Q naraz (typ danych o wartości 128 bitowej). Nie znalazłem nic w na

    9Ciepło

    3Odpowiedz

    Jakie są ogólne wskazówki/wskazówki dotyczące operacji drzewa wektoryzacji? Układ pamięci mądry, mądry algorytm itp Niektóre domeny specyficzne rzeczy: Każdy węzeł rodzic będzie miał sporo (20 - 200),

    20Ciepło

    8Odpowiedz

    Czy ktoś zna bibliotekę wewnętrzną SIMD biblioteki C++ x86 SIMD? Intel dostarcza dokładnie to, czego potrzebuję w swojej bibliotece zintegrowanych operacji wydajnościowych, ale nie mogę jej używać z p

    7Ciepło

    2Odpowiedz

    Mam obecnie duży zestaw elementów pływających, które przetwarzam w jądrze OpenCL Zastanawiam się, czy podzielę tę tablicę i użyję tablicy typów OpenCL zamiast tego, jeśli przyspieszy to proces. Zasadn

    5Ciepło

    1Odpowiedz

    widzę kod jak poniżej:. #include "stdio.h" #define VECTOR_SIZE 4 typedef float v4sf __attribute__ ((vector_size(sizeof(float)*VECTOR_SIZE))); // vector of four single floats typedef union f4ve

    11Ciepło

    2Odpowiedz

    Jak sprawdzić, czy zmienna __m128i ma dowolną wartość niezerową w procesorach SSE-2 i wcześniejszych?

    10Ciepło

    1Odpowiedz

    Mam dwa wektory po 4 liczby całkowite i chciałbym użyć polecenia SIMD, aby je porównać (np. Wygenerować wektor wyników, gdzie każdy wpis jest równy 0 lub 1 zgodnie z wynikiem porównania). Następnie ch