Jak interpretować wyjście TensorFlow?

Jak interpretować wyjście TensorFlow do budowania i wykonywania wykresów obliczeniowych na GPGPU?Jak interpretować wyjście TensorFlow?

Biorąc pod uwagę następujące polecenie, które wykonuje dowolny skrypt tensorflow przy użyciu interfejsu API Pythona.

python3 tensorflow_test.py> out

Pierwsza część stream_executor wydaje się jego ładowanie zależności.

I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcublas.so locally 
I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcudnn.so locally 
I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcufft.so locally 
I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcuda.so.1 locally 
I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcurand.so locally

Co to jest węzeł NUMA?

I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:900] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero

Zakładam, to jest, gdy stwierdzi, dostępną GPU

I tensorflow/core/common_runtime/gpu/gpu_init.cc:102] Found device 0 with properties: 
name: Tesla K40c 
major: 3 minor: 5 memoryClockRate (GHz) 0.745 
pciBusID 0000:01:00.0 
Total memory: 11.25GiB 
Free memory: 11.15GiB

Niektóre inicjalizacji GPU? co to jest DMA?

I tensorflow/core/common_runtime/gpu/gpu_init.cc:126] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_init.cc:136] 0: Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:755] Creating TensorFlow device (/gpu:0) -> (device: 0, name: Tesla K40c, pci bus id: 0000:01:00.0)

Dlaczego wyświetla się błąd E?

E tensorflow/stream_executor/cuda/cuda_driver.cc:932] failed to allocate 11.15G (11976531968 bytes) from device: CUDA_ERROR_OUT_OF_MEMORY

Świetna odpowiedź na to, co robi pool_allocator: https://stackoverflow.com/a/35166985/4233809

I tensorflow/core/common_runtime/gpu/pool_allocator.cc:244] PoolAllocator: After 3160 get requests, put_count=2958 evicted_count=1000 eviction_rate=0.338066 and unsatisfied allocation rate=0.412025 
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:256] Raising pool_size_limit_ from 100 to 110 
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:244] PoolAllocator: After 1743 get requests, put_count=1970 evicted_count=1000 eviction_rate=0.507614 and unsatisfied allocation rate=0.456684 
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:256] Raising pool_size_limit_ from 256 to 281 
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:244] PoolAllocator: After 1986 get requests, put_count=2519 evicted_count=1000 eviction_rate=0.396983 and unsatisfied allocation rate=0.264854 
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:256] Raising pool_size_limit_ from 655 to 720 
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:244] PoolAllocator: After 28728 get requests, put_count=28680 evicted_count=1000 eviction_rate=0.0348675 and unsatisfied allocation rate=0.0418407 
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:256] Raising pool_size_limit_ from 1694 to 1863

Źródło

2016-04-25 Alexander R Johansen

O NUMA - https://software.intel.com/en-us/articles/optimizing-applications-for-numa

z grubsza rzecz biorąc, jeśli masz podwójnego gniazda procesora, będą one każdy ma swoją własną pamięć i mieć dostęp do pamięci innego procesora przez wolniejsze łącze QPI. Zatem każda pamięć CPU + jest węzłem NUMA.

Potencjalnie można leczyć dwa różne węzły NUMA jako dwóch różnych urządzeń i struktury sieci w celu optymalizacji dla różnych wewnątrz-węzła/między węzłami przepustowość

Jednak nie sądzę, że wystarczy okablowanie w TF teraz zrobić to teraz. Wykrywanie też nie działa - po prostu próbowałem na komputerze z 2 węzłami NUMA i nadal drukowałem tę samą wiadomość i inicjowałem ją na 1 węzeł NUMA.

DMA = Bezpośredni dostęp do pamięci. Można potencjalnie skopiować dane z jednego GPU na inny procesor graficzny bez użycia procesora (np. Poprzez NVlink). Integracja NVLink jeszcze nie istnieje.

Jeśli chodzi o błąd, TensorFlow próbuje przydzielić blisko pamięci GPU max, więc brzmi, jakby część pamięci GPU została już przydzielona do czegoś innego, a alokacja nie powiodła się.

można zrobić coś jak poniżej, aby uniknąć przydzielania tak dużo pamięci

config = tf.ConfigProto(log_device_placement=True) 
config.gpu_options.per_process_gpu_memory_fraction=0.3 # don't hog all vRAM 
config.operation_timeout_in_ms=15000 # terminate on long hangs 
sess = tf.InteractiveSession("", config=config)

Źródło

2016-04-25 20:03:32

successfully opened CUDA library xxx locally oznacza, że biblioteka został załadowany, ale to nie oznacza, że będzie on używany.
successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero oznacza, że twoje jądro nie obsługuje NUMA.Możesz przeczytać o NUMA here i here.
Found device 0 with properties: masz 1 GPU, którego możesz użyć. Wymienia właściwości tego GPU.
DMA to bezpośredni dostęp do pamięci. Więcej informacji na temat Wikipedia.
failed to allocate 11.15G Błąd wyraźnie wyjaśnia, dlaczego tak się stało, ale trudno powiedzieć, dlaczego potrzebujesz tyle pamięci bez patrzenia na kod.
Komunikaty o przydzielaniu pul są objaśnione w pozycji this answer

Źródło

2017-05-02 06:58:47

Jak interpretować wyjście TensorFlow?

Odpowiedz

Powiązane problemy