Howto bin serii wartości zmiennoprzecinkowe na histogram w języku Python?

Mam zestaw wartości w float (zawsze mniej niż 0). Które chcę bin na histogram, i, e. każdy bar w histogramie zawierać zakres wartości [0,0.150)Howto bin serii wartości zmiennoprzecinkowe na histogram w języku Python?

Dane mam wygląda następująco:

Whith mojego kodu poniżej oczekiwać, aby uzyskać wynik, który wygląda jak

[0, 0.005) 5 
[0.005, 0.011) 0 
...etc..

Próbowałem zrobić takie binning z tym kodem. Ale to nie działa. Jak to zrobić?

#! /usr/bin/env python 


import fileinput, math 

log2 = math.log(2) 

def getBin(x): 
    return int(math.log(x+1)/log2) 

diffCounts = [0] * 5 

for line in fileinput.input(): 
    words = line.split() 
    diff = float(words[0]) * 1000; 

    diffCounts[ str(getBin(diff)) ] += 1 

maxdiff = [i for i, c in enumerate(diffCounts) if c > 0][-1] 
print maxdiff 
maxBin = max(maxdiff) 


for i in range(maxBin+1): 
    lo = 2**i - 1 
    hi = 2**(i+1) - 1 
    binStr = '[' + str(lo) + ',' + str(hi) + ')' 
    print binStr + '\t' + '\t'.join(map(str, (diffCounts[i])))

Źródło

2009-11-12 neversaint

Cóż, w przykładzie „Czego można oczekiwać ...”, jeśli masz zakresy zdefiniowane jako [0, 0,005) (prawy otwarty) i [0,005, 0,011) (zamknięte po lewej) to powinno być: [0, 0,005) 4 [0,005, 0,011] 1 itd ... – Gacek

"Czy nie działa?" Każda konkretna skarga? A może oczekujesz, że wszyscy będą go uruchamiać i próbować zgadywać, co ci się nie podoba w wynikach? –

Aby uniknąć ponownego wynalezienia koła, szczególnie jeśli następnym krokiem jest wykreślenie histogramu: powinieneś rozważyć użycie platformy Matplotlib, która obsługuje to wszystko. – RedGlyph

Jeśli to możliwe, nie odkrywaj ponownie koła. NumPy ma wszystko, czego potrzeba:

#!/usr/bin/env python 
import numpy as np 

a = np.fromfile(open('file', 'r'), sep='\n') 
# [ 0.  0.005 0.124 0.  0.004 0.  0.111 0.112] 

# You can set arbitrary bin edges: 
bins = [0, 0.150] 
hist, bin_edges = np.histogram(a, bins=bins) 
# hist: [8] 
# bin_edges: [ 0. 0.15] 

# Or, if bin is an integer, you can set the number of bins: 
bins = 4 
hist, bin_edges = np.histogram(a, bins=bins) 
# hist: [5 0 0 3] 
# bin_edges: [ 0.  0.031 0.062 0.093 0.124]

Źródło

2009-11-12 12:28:17 unutbu

A jeśli chcesz znormalizować histogram, możesz dodać linię: hist = hist * 1.0/sum (hist) – dval

A jeśli chcesz, by całka nad zakresem bin wynosiła 1, użyj ['density = True'] (http://docs.scipy.org/doc/numpy-1.10.1/reference/ generated/numpy.histogram.html). – unutbu

Pierwszy błąd jest:

Traceback (most recent call last): 
    File "C:\foo\foo.py", line 17, in <module> 
    diffCounts[ str(getBin(diff)) ] += 1 
TypeError: list indices must be integers

Czemu konwersja int na ul kiedy potrzebna jest str? Napraw to, a następnie otrzymamy:

Traceback (most recent call last): 
    File "C:\foo\foo.py", line 17, in <module> 
    diffCounts[ getBin(diff) ] += 1 
IndexError: list index out of range

ponieważ wykonano tylko 5 wiader. Nie rozumiem swój schemat bucketing, ale zróbmy to 50 wiader i zobaczyć, co się dzieje:

6 
Traceback (most recent call last): 
    File "C:\foo\foo.py", line 21, in <module> 
    maxBin = max(maxdiff) 
TypeError: 'int' object is not iterable

maxdiff jest pojedyncza wartość z listy wskazówki, więc to, co jest max tu robi? Usuń go, teraz otrzymujemy:

6 
Traceback (most recent call last): 
    File "C:\foo\foo.py", line 28, in <module> 
    print binStr + '\t' + '\t'.join(map(str, (diffCounts[i]))) 
TypeError: argument 2 to map() must support iteration

Rzeczywiście, używasz pojedynczą wartość jako drugi argument do map. Załóżmy uprościć ostatnie dwie linie z tego:

binStr = '[' + str(lo) + ',' + str(hi) + ')' 
print binStr + '\t' + '\t'.join(map(str, (diffCounts[i])))

do tego:

print "[%f, %f)\t%r" % (lo, hi, diffCounts[i])

Teraz drukuje:

6 
[0.000000, 1.000000) 3 
[1.000000, 3.000000) 0 
[3.000000, 7.000000) 2 
[7.000000, 15.000000) 0 
[15.000000, 31.000000) 0 
[31.000000, 63.000000) 0 
[63.000000, 127.000000) 3

Nie jestem pewien, co jeszcze do zrobienia, bo tak naprawdę nie rozumiem spekulowania, którego chcesz użyć. Wydaje się, że obejmuje ona moce binarne, ale nie ma dla mnie sensu ...

Źródło

2009-11-12 12:19:45

from pylab import * 
data = [] 
inf = open('pulse_data.txt') 
for line in inf: 
    data.append(float(line)) 
inf.close() 
#binning 
B = 50 
minv = min(data) 
maxv = max(data) 
bincounts = [] 
for i in range(B+1): 
    bincounts.append(0) 
for d in data: 
    b = int((d - minv)/(maxv - minv) * B) 
    bincounts[b] += 1 
# plot histogram 

plot(bincounts,'o') 
show()

Źródło

2012-11-12 15:33:31 terra

Howto bin serii wartości zmiennoprzecinkowe na histogram w języku Python?

Odpowiedz

Powiązane problemy