Jak zdefiniować pamięć współużytkowaną CUDA o rozmiarze znanym w czasie wykonywania?

Pamięć __shared__ w CUDA wydaje się wymagać znanego rozmiaru podczas kompilacji. Jednak w moim problemie, wielkość pamięci __shared__ jest znany tylko w czasie wykonywania, tjJak zdefiniować pamięć współużytkowaną CUDA o rozmiarze znanym w czasie wykonywania?

int size=get_size(); 
__shared__ mem[size];

Pozwoli to skończyć z „Błąd: stała wartość nie jest znana”, i nie jestem pewien, jak obejść ten problem.

Źródło

2012-03-30 Hailiang Zhang

możliwe duplikat [przydzielanie pamięci współdzielonej] (http://stackoverflow.com/questions/5531247/allocating-shared-memory) – talonmies

Celem pamięci współdzielonej jest umożliwienie współpracy wątków w bloku. Kiedy deklarujesz tablicę jako __shared__, każdy wątek w bloku widzi tę samą pamięć, więc nie ma sensu, aby dany wątek mógł ustawić swój własny rozmiar dla tablicy we wspólnej pamięci.

Jednak obsługiwany jest specjalny przypadek dynamicznego określania rozmiaru pojedynczej tablicy __shared__, która ma taki sam rozmiar dla wszystkich wątków. Zobacz allocating shared memory.

Jeśli potrzebujesz dynamicznie alokować pamięć dla każdego wątku, możesz użyć new lub malloc wewnątrz jądra (na Fermi), ale alokują pamięć globalną, która prawdopodobnie będzie wolna.

Źródło

2012-03-30 03:31:55

Właściwie starałem się uczynić blockDim.x jak wielkość pamięci __shared__, która będzie taki sam dla wszystkich wątków w tym samym bloku, ale nadal nie działa (z innym błędem). –

@HailiangZhang: Możesz nie chcieć planować rozwiązania problemu poprzez dynamiczne zmienianie wymiarów bloku. Zwykle uzyskasz najlepszą wydajność, uważnie rozważając wykorzystanie zasobów jądra i ustawiając na podstawie tego stały, optymalny wymiar bloku. Na przykład za pomocą arkusza kalkulacyjnego CUDA Occupancy Calculator. Ponadto wymiary powinny zwielokrotniać się do wielokrotności rozmiaru osnowy, aby uzyskać najlepszą wydajność. Dynamiczne dopasowywanie wymiarów siatki było możliwe tylko w celu dopasowania do danych. –

@RogerDahl: Ta odpowiedź jest niepoprawna. Użytkownik __can__ dynamicznie określa pamięć dzieloną jądra w czasie wykonywania - jest to cecha CUDA od wersji 1.0. Zobacz [tę odpowiedź] (http://stackoverflow.com/a/5531640/681865), w jaki sposób. – talonmies

Powinieneś używać extern__shared__ mem[]; (Dynamic Shared Memory) zamiast __shared__ mem[size]; (Statyczna pamięć współdzielona). patrz [https://devblogs.nvidia.com/parallelforall/using-shared-memory-cuda-cc/][1]

Źródło

2016-10-18 18:20:11

Jak zdefiniować pamięć współużytkowaną CUDA o rozmiarze znanym w czasie wykonywania?

Odpowiedz

Powiązane problemy