5

Próbuję nauczyć reprezentację słowo zbiorze IMDB „od zera” poprzez funkcję TensorFlow tf.nn.embedding_lookup(). Jeśli dobrze to rozumiem, muszę ustawić warstwę osadzania przed inną ukrytą warstwą, a kiedy wykonam gradientowe nachylenie, warstwa "nauczy się" reprezentacji słowa w masach tej warstwy. Jednak gdy próbuję to zrobić, pojawia się błąd kształtu między warstwą osadzania a pierwszą w pełni połączoną warstwą mojej sieci.Tensorflow embedding_lookup

def multilayer_perceptron(_X, _weights, _biases): 
    with tf.device('/cpu:0'), tf.name_scope("embedding"): 
     W = tf.Variable(tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0),name="W") 
     embedding_layer = tf.nn.embedding_lookup(W, _X)  
    layer_1 = tf.nn.sigmoid(tf.add(tf.matmul(embedding_layer, _weights['h1']), _biases['b1'])) 
    layer_2 = tf.nn.sigmoid(tf.add(tf.matmul(layer_1, _weights['h2']), _biases['b2'])) 
    return tf.matmul(layer_2, weights['out']) + biases['out'] 

x = tf.placeholder(tf.int32, [None, n_input]) 
y = tf.placeholder(tf.float32, [None, n_classes]) 

pred = multilayer_perceptron(x, weights, biases) 
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(pred,y)) 
train_step = tf.train.GradientDescentOptimizer(0.3).minimize(cost) 

init = tf.initialize_all_variables() 

Błąd pojawia się:

ValueError: Shapes TensorShape([Dimension(None), Dimension(300), Dimension(128)]) 
and TensorShape([Dimension(None), Dimension(None)]) must have the same rank 

Odpowiedz

15

Błąd kształt powstaje ponieważ używasz dwuwymiarowy tensor, x do indeksu w dwuwymiarowej osadzającego tensora W. Myśleć tf.nn.embedding_lookup() (i jego blisko spokrewnione tf.gather()) jak przy każdej wartości liczby całkowitej i w x i zastąpienie go rzędu W[i, :]. Z komunikatu o błędzie można wywnioskować, że n_input = 300 i embedding_size = 128. Ogólnie rzecz biorąc, wynik liczby tf.nn.embedding_lookup() jest równy rank(x) + rank(W) - 1 & hellip; w tym przypadku 3. Błąd powstaje, gdy próbujesz pomnożyć ten wynik przez _weights['h1'], która jest (dwuwymiarową) macierzą.

Aby rozwiązać ten kod, to zależy od tego, co próbujemy zrobić i dlaczego jesteś przejazdem w matrycy wejść do zatapiania. Najczęstszą rzeczą jest, aby agregować wektory osadzania dla każdego przykładu wejściowego w jeden wiersz na przykład przy użyciu operacji takiej jak tf.reduce_sum(). Na przykład, można wykonać następujące czynności:

W = tf.Variable(
    tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0) ,name="W") 
embedding_layer = tf.nn.embedding_lookup(W, _X) 

# Reduce along dimension 1 (`n_input`) to get a single vector (row) 
# per input example. 
embedding_aggregated = tf.reduce_sum(embedding_layer, [1]) 

layer_1 = tf.nn.sigmoid(tf.add(tf.matmul(
    embedding_aggregated, _weights['h1']), _biases['b1'])) 
+1

Dzięki! Myślę, że tf.nn.reduce_sum powinno być tf.reduce_sum? Kiedy zdecydujesz się zmniejszyć wymiar warstwy osadzania, w jaki sposób wybrałeś opcję zmniejszenia między "n_input = 300" a "embedding_size = 128"? – nicolasdavid

+2

Masz rację co do literówki - poprawiono ją powyżej, dzięki! Wybrałem redukcję wzdłuż wymiaru 'n_input', ponieważ wydawało się bardziej prawdopodobne, że to pasuje do twojego problemu i założyłem, że (np.) Kolejność danych wejściowych nie była ważna. Jest dość typowe, aby zrobić to w przypadku problemów typu "worki-słowa". Ty * możesz * zmniejszyć wzdłuż 'embedding_size', ale myślę, że straciłoby to wiele informacji z osadzania, więc prawdopodobnie nie działałby tak dobrze. – mrry

0

Jeden Innym możliwym rozwiązaniem jest: Zamiast dodawania wektorów wbudowania, złączyć te wektory w jednym wektorze i zwiększenie liczby neuronów w warstwie ukrytej.
Użyłem:
embedding_aggregated = tf.reshape(embedding_layer, [-1, embedding_size * sequence_length])
Również zmieniono liczbę neuronów w ukrytej warstwie na embedding_size * sequence_length. Obserwacja: Poprawiono także dokładność przy użyciu konkatenacji zamiast dodawania.

Powiązane problemy