Nie mogę wykryć pustej strony w pliku PDF. Szukałem internetu, ale nie mogłem znaleźć dobrego rozwiązania.Jak znaleźć pustą stronę w pliku pdf
Używając Itextarp, próbowałem z rozmiarem strony, Xobjects. Ale nie podają dokładnego wyniku.
Próbowałem
if(xobjects==null || textcontent==null || size <20 bytes)
then "blank"
else
not blank
Ale maksymalny czas powraca złą odpowiedź. Użyłem iTextSharp
Kod jest poniżej ... Używam iTextSharp Librabry
Dla xobjects
PdfDictionary xobjects = resourceDic.GetAsDict(PdfName.XOBJECT);
//here resourceDic is PdfDictionary type
//I know that if Xobjects is null then page is blank. But sometimes blank page gives xobjects which is not null.
Dla contentstream
RandomAccessFileOrArray f = reader.SafeFile;
//here reader = new PdfReader(filename);
byte[] contentBytes = reader.GetPageContent(pageNum, f);
//I have measured the size of contentbytes but sometimes it gives more than 20 bytes for blank page
Dla textContent
String extractedText = PdfTextExtractor.GetTextFromPage(reader, pageNum, new LocationTextExtractionStrategy());
// sometimes blank page give a text more than 20 char length .
Co otrzymałeś na stronie, którą znasz jako pustą? (Edytuj ten szczegół w swojej odpowiedzi, zamiast dodawać istotne szczegóły w komentarzach). – halfer
@halfer zobacz teraz. –
To dobre pytanie. Nie znam odpowiedzi, ponieważ nie robiłem wcześniej żadnego parsowania PDF. Czy przeanalizowałeś te trzy kategorie obiektów, aby sprawdzić, czy puste strony mają coś wspólnego? Na przykład, jaka zawartość tekstu faktycznie pojawia się na pustej stronie? – halfer