2012-12-18 18 views
5

Czy można uzyskać tekst, obrazy i równania LaTeX z konkretnej strony internetowej, aby można było bezpośrednio dostosowywać własny plik PDF bez rozmycia obiektów? Tylko obraz będzie miał stałą rozdzielczość.Wylicz tekst, obrazy i równania LaTeX ze stron internetowych

Zdaję sobie sprawę, że istnieje kilka sposobów generowania plików PDF pośrednio. Próba renderowania pliku PDF z Wolfram MathWorld na przykład na Riemann Zeta Function byłaby możliwa poprzez wydrukowanie i zapisanie go jako pliku PDF przez Chrome, ale w miarę przybliżania, równania LaTeX i tekst stają się naturalnie rozmyte. Próbowałem pobrać "Wolfram's CDF Player", ale zawiera on tylko składnię bibliotek Mathematica - nie pomocne wyjaśnienia, które zapewnia Wolfram MathWorld. Co byłoby mi potrzebne, aby wyodrębnić tekst, obrazy i równania LaTeX w pliku PDF bez rozmycia?

+0

Możesz lepiej wypróbować swoje pytanie tutaj http://mathematica.stackexchange.com –

Odpowiedz

1

Jeśli nie masz dostępu do źródła LaTeX, które zostało użyte do utworzenia obrazów w sposób, który nie wynika z twojego pytania, odpowiedź brzmi "nie możesz". Dorywcza inspekcja powiązanej strony internetowej oznacza, że ​​LaTeX, który jest używany do tworzenia równań, nie jest łatwo dostępny (jest to prawdopodobnie w systemie zaplecza, który wytwarza obrazy, które umieszczane są na serwerze sieciowym).

Do przeglądarki to tylko zdjęcie. Sposób, w jaki obraz został wyprodukowany, jest nieistotny dla sposobu, w jaki pojawia się on na stronie internetowej i jak ma się pojawić w pliku PDF (tj. Bardziej pikselowo niż pożądany).

Należy pamiętać, że jeśli witryna korzysta z formatu grafiki wektorowej, takiego jak SVG zamiast formatu opartego na pikselach, takiego jak PNG lub JPEG, to zostaną one przetłumaczone na format PDF i będą ładnie powiększać. To jest wybór, który mógłby zostać dokonany przez webmastera danej witryny.

1

Sprawdzanie źródła pokazuje, że gify przedstawiające każde równanie mają alt-tekst zbliżony do LaTeXa, który je renderował (może to być kod Mathematica - nie jestem zaznajomiony z narzędziami Wolframa). Wydobycie rozsądnego źródła nie byłoby niemożliwe, ale byłoby to trudne. Strona jest podzielona na tabele, więc nawet przy czymś takim jak beautiful soup parsowanie kodu HTML może być trudne. Niektóre równania są podzielone na różne gify, więc ich przetwarzanie byłoby jeszcze trudniejsze. Musiałbyś również przekonwertować wszystko, co zawiera tekst alternatywny do LaTeXa.

Podsumowując, jeśli nie potrzebujesz zilionowej strony, proponuję wkleić tekst, zapisać obrazy, pobrać tekst alternatywny każdego obrazu i samemu dokonać konwersji.

0

Dla podanego przykładu można pobrać notatnik Mathematica dla tej strony. Możliwe, że można coś z tego sparsować.

Powiązane problemy