2010-07-05 13 views
8

Szukam parsera Microsoft Office opartego na pytonie - w szczególności powerpoint.Microsoft Powerpoint Python Parser

Chcę móc analizować PPT w Pythonie i wyodrębnić takie rzeczy jak tekst i obrazy z pliku Powerpoint.

Czy jest dostępna biblioteka?

Odpowiedz

5

Nie sądzę, że istnieje taka biblioteka.

Co można zrobić, to użyć pakietu pywin32, aby uzyskać dostęp do COM PowerPointa.

Tutaj jest bardzo miłe wprowadzenie do korzystania z modułu win32com do automatyzacji zadań w programie PowerPoint ktoś napisał: http://www.s-anand.net/blog/automating-powerpoint-with-python/

+0

Dzięki! Jestem na tym teraz. Łącze było bardzo przydatne w zrozumieniu, w jaki sposób obejść cały proces. – ramaz

3

Możesz znaleźć taką bestię, ale założę się przeciwko niej; szukasz razem dwóch rzadkich właściwości.

Możesz rozważyć użycie zestawu SDK Open Office, który już posiada ogromne ilości maszyn do odczytywania plików power point i nadużywania go do swoich celów. To wszystko jest Java, nie Python, ale domyślam się, że nauka uczenia się języka Java jest znacznie mniejsza niż krzywej uczenia się, aby dowiedzieć się, jak czytać pliki PowerPoint.