Tekst: uzupełnianie PageRank dla wyodrębniania zdań przy użyciu networkx

Próbuję zaimplementować algorytm tekstranu do ekstrakcji zdań zgodnie z opisem here. Do tego potrzebujemy dopełnienia algorytmu PageRank z ważonymi krawędziami i uruchamiamy je na nieukierunkowanych wykresach. Implementacja algorytmu sieciowego pagerank pozwala mi na łatwą integrację ważonych krawędzi i mówi się, że konwertuje ukierunkowane wykresy na nieokierunkowane: patrz here. Jednak, kiedy testowałem, nadal wydaje się używać ukierunkowanego wykresu. Czego tu mi brakuje? Bardzo pomocna pomoc.Tekst: uzupełnianie PageRank dla wyodrębniania zdań przy użyciu networkx

Przykład:

import networkx as nx 
D=nx.DiGraph() 
D.add_weighted_edges_from([('A','B',0.5),('A','C',1)]) 
print nx.pagerank(D)

Outpunt: { 'A': ,25974025929223499, 'C' +0,40692640737443164, 'B': ,33333333333333331}

Źródło

2012-02-12 root

Chyba błędnie interpretowane notatkę na NetworkX dokumentacja. Chociaż, muszę przyznać, że może być lepiej napisany.

Algorytm PageRank zostało zaprojektowane dla wykresów ale algorytm nie sprawdza czy wykres wejściowego jest skierowany i wykonania na nieukierunkowane wykresów konwersję wszystkich krawędzi zorientowanej w skierowanej wykres dwóch krawędziach.

Co to oznacza, że algorytm PageRank jest przeznaczony do grafów skierowanych, ale może być użyty do grafów niekierowanych. Aby to zrobić, przekształca sieć niedoorientowaną w kierowaną sieć, zastępując każdą krawędź dwoma skierowanymi krawędziami (do i z zewnątrz).

Dlatego, jeśli dasz mu skierowaną sieć, obliczy ona ranking PageRank zgodnie z kierunkową strukturą. Więc albo zacząć undirected sieci:

import networkx as nx 

# Undirected Network 
D = nx.Graph() 
D.add_weighted_edges_from([('A', 'B', 0.5),('A', 'C', 1)]) 

# Default max number of iterations failed to converge for me 
print nx.pagerank(D, max_iter=200) 

# Outputs: 
{'A': 0.48648648872844047, 'C': 0.32567567418103965, 'B': 0.18783783709051982}

lub jeśli masz już skierowany sieci, konwertować je do undirected jeden:

import networkx as nx 

# Directed Network 
D = nx.DiGraph() 
D.add_weighted_edges_from([('A', 'B', 0.5), ('A', 'C', 1)]) 

# Convert to undirected 
G = D.to_undirected() 

# Default max number of iterations failed to converge for me 
print nx.pagerank(G, max_iter=200) 

# Outputs: 
{'A': 0.48648648872844047, 'C': 0.32567567418103965, 'B': 0.18783783709051982}

Źródło

2012-02-12 09:35:13 Avaris

Mój błąd. Dziękuję za rozwiązanie. – root

Miła implementacja algorytmu TextRank w Pythonie można znaleźć here. Jeśli chcesz użyć tego skryptu, musisz wcześniej uruchomić nltk.download(), aby zainstalować niezbędne pliki danych zgodnie z opisem here.

Źródło

2012-10-02 10:18:58 drunkbn

Ta implementacja nie służy do ekstrakcji zdań, ale raczej do ekstrakcji słów kluczowych. Widać to z komentarzy poniżej kodu. – UberAlex

Tekst: uzupełnianie PageRank dla wyodrębniania zdań przy użyciu networkx

Odpowiedz

Powiązane problemy