Uruchamiam IMDbAPI.com i używam Bing's Search API do wyszukiwania identyfikatorów IMDb z wyszukiwania tytułów. Bing obecnie zmienia swoje API na Azure Marketplace (1 sierpnia) i nie jest już dostępny za darmo. Rozpocząłem testowanie mojego API za pomocą Freebase, aby rozwiązać te identyfikatory i osiągnąłem limit 100 000 w ciągu pierwszych 8 godzin (moja strona obecnie otrzymuje około 3 miliony żądań dziennie, ale tylko 200-300 000 to wyszukiwanie tytułu).Freebase: Jaki plik zrzutu danych zawiera "imdb_id"?
To jest właśnie przyczyna oferują pliki zrzutu danych,
Pobrałem większość plików w folderze Film, ale nie mogę znaleźć miejsca, w którym przechowują dane obszaru nazw "/ authority/imdb/title" imdb id.
To jak mam obecnie dostępu do identyfikatora.
Czy ktoś wie, który plik zawiera te informacje? i jak połączyć się z nim z tytułem/identyfikatorem filmu?
Próbowałem uniknąć pliku 4gig (wyodrębnionego 33gig), ale mimo to go pobrałem i spędziłem ostatnie 3 godziny, próbując znaleźć NICZEGO, aby go otworzyć/przeanalizować. Skończyłem z wykorzystaniem Log Parsera 2.2 firmy Microsoft, który działał świetnie! LogParser.exe -i: TSV "WYBIERZ Col1, Col4 INTO C: \ imdbList.csv FROM C: \ freebase.tsv WHERE Col3 lubi"% imdb/title% "" -o: CSV -headers: OFF -iHeaderFile: "C: \ header.txt" Teraz mam plik CSV o rozmiarze 3 mb, który ma wszystkie identyfikatory wolnej bazy i identyfikator IMDb. – bfritz
Następnie muszę uzyskać "tytuł", "rok wydania" i "aliasy" z "filmu. tsv ", wtedy mogę połączyć dane w SQL ... I wreszcie mogę szukać :) Ale polegam na dodatkowym pliku z folderu Browse" Films.tsv ", czy wkrótce odejdą? – bfritz
To prawdopodobnie szybciej (i na pewno mniej miejsca na dysku) do przetwarzania skompresowanego pliku, więc nie rozpakowałbym go. Każdy system Linux (lub Cygwin na Windows) może przetwarzać to trywialnie bez pobierania dziwnych własnych narzędzi. Odpowiednim poleceniem jest bzgrep "authority/imdb/title" freebase-datadump-quadruples.tsv.bz2 | cut -f 1,4> imdbList.csv Nawet na laptopie potrafi dekompresować i przeszukiwać ten plik 4GB i wyprowadzać 142K par identyfikatorów w czasie poniżej 20 minut. –