2010-06-02 18 views
53

Do tej pory nie znalazłem rozwiązania, które dobrze by działało, aby wyodrębnić tekst z pliku PDF w Objective C do użytku na iPhone'ie. Znalazłem standardowy kod C i zmodyfikowałem go tak, aby działał, i myślałem, że dostarczę go tutaj, ponieważ do tej pory użyłem stackoverflow trochę, ale nigdy nie oddałem. Możesz go pobrać tutaj: https://github.com/zachron/pdfiphoneWyodrębnianie tekstu w formacie PDF w Objective C

Jako ścieżkę wejściową przyjmuje ścieżkę do pliku pdf i zwraca tekst w pliku pdf. Większość tego nie napisałem, ale zmodyfikowałem to tak, aby działało z iPhone'em i Objective C. Musisz włączyć bibliotekę Zlib do swojego projektu (libz.dylib na iPhone'ie), jeśli ktoś to zrobi i zrobi to jest bardziej niesamowite, to jest dobre czasy.

+0

Byłoby to dobra odpowiedź na to pytanie: http://stackoverflow.com/questions/2362393/reading-pdf-files-as-string-through-iphone-application – Chetan

+13

Proszę Parafrazując jako pytanie i zamiast tego opublikuj swoje rozwiązanie jako odpowiedź. –

+0

może to pomoże .... http://stackoverflow.com/questions/2362393/reading-pdf-files-as-string-through-iphone-application –

Odpowiedz

5

Należy pamiętać, że będzie to działać tylko w przypadku wyodrębniania tekstu zapisanego w pliku PDF. Nie będzie skanować dokumentów w formacie OCR. Jeśli chcesz to zrobić, istnieje możliwość użycia Tesseract, silnego silnika Google i FOSS OCR. To compiles on the iPhone: patrz przykład Nolana Browna Tesseract-iPhone-Demo. Biblioteka obrazowania ImageMagic also compiles on the iPhone umożliwia konwersję plików PDF na TIFF, które Tesseract akceptuje jako dane wejściowe.