użyciu kompresji nie zawsze zmniejszyć długość łańcucha!
Należy rozważyć następujący kod;
import zlib
import bz2
def comptest(s):
print 'original length:', len(s)
print 'zlib compressed length:', len(zlib.compress(s))
print 'bz2 compressed length:', len(bz2.compress(s))
Spróbujmy tego na pustym łańcuchu;
In [15]: comptest('')
original length: 0
zlib compressed length: 8
bz2 compressed length: 14
Więc zlib
produkuje dodatkowe 8 znaków i bz2
14. Metody kompresji zazwyczaj umieścić nagłówek „” przed skompresowanych danych na użytek programu dekompresji. Ten nagłówek zwiększa długość wyjścia.
Przetestujmy jedno słowo;
In [16]: comptest('test')
original length: 4
zlib compressed length: 12
bz2 compressed length: 40
Nawet w przypadku odjęcia długości nagłówka kompresja nie spowodowała skrócenia słowa. Dzieje się tak dlatego, że w tym przypadku niewiele jest do kompresji. Większość znaków w łańcuchu występuje tylko raz. Teraz na krótkie zdanie;
In [17]: comptest('This is a compression test of a short sentence.')
original length: 47
zlib compressed length: 52
bz2 compressed length: 73
Ponownie wyjście kompresji większa niż tekstu wejściowego. Z powodu ograniczonej długości tekstu, jest w nim niewiele powtórzeń, więc nie będzie się dobrze kompresował.
Potrzebujesz dość długiego bloku tekstu, aby kompresja rzeczywiście zadziałała;
In [22]: rings = '''
....: Three Rings for the Elven-kings under the sky,
....: Seven for the Dwarf-lords in their halls of stone,
....: Nine for Mortal Men doomed to die,
....: One for the Dark Lord on his dark throne
....: In the Land of Mordor where the Shadows lie.
....: One Ring to rule them all, One Ring to find them,
....: One Ring to bring them all and in the darkness bind them
....: In the Land of Mordor where the Shadows lie.'''
In [23]: comptest(rings)
original length: 410
zlib compressed length: 205
bz2 compressed length: 248
Patrz http://en.literateprograms.org/Huffman_coding_(Python) – GodMan
Dlaczego nie zlib pomóc? – Sergey
Próbowałem zwrócić ciąg znaków, ale nie działało. – moenad