Chcę przechowywać tablice Numpy w bazie danych PostgreSQL w formie binarnej (bytea). Mogę sprawić, żeby to działało dobrze w teście nr 1 (zobacz poniżej), ale nie chcę manipulować tablicami danych przed wstawianiem i po selekcji za każdym razem - chcę używać adapterów i konwerterów psycopg2.Używanie konwertera psycopg2 do pobierania danych z bazy danych PostgreSQL

Oto co mam w tej chwili:

import numpy as np 
import psycopg2, psycopg2.extras 

def my_adapter(spectrum): 
    return psycopg2.Binary(spectrum) 

def my_converter(my_buffer, cursor): 
    return np.frombuffer(my_buffer) 

class MyBinaryTest(): 

    # Connection info 
    user = 'postgres' 
    password = 'XXXXXXXXXX' 
    host = 'localhost' 
    database = 'test_binary' 

    def __init__(self): 

    def set_up(self): 

     # Set up 
     connection = psycopg2.connect(host=self.host, user=self.user, password=self.password) 


     cursor = connection.cursor() 
     try: # Clear out any old test database 
      cursor.execute('drop database %s' % (self.database,)) 

     cursor.execute('create database %s' % (self.database,)) 

     # Direct connectly to the database and set up our table    
     self.connection = psycopg2.connect(host=self.host, user=self.user, password=self.password, database=self.database) 
     self.cursor = self.connection.cursor(cursor_factory=psycopg2.extras.DictCursor) 

     self.cursor.execute('''CREATE TABLE spectrum (
      "sid" integer not null primary key, 
      "data" bytea not null 

      CREATE SEQUENCE spectrum_id; 
      ALTER TABLE spectrum 
       ALTER COLUMN sid 
        SET DEFAULT NEXTVAL('spectrum_id'); 

    def perform_test_one(self): 

     # Lets do a test 

     shape = (2, 100) 
     data = np.random.random(shape) 

     # Binary up the data 
     send_data = psycopg2.Binary(data) 

     self.cursor.execute('insert into spectrum (data) values (%s) returning sid;', [send_data]) 

     # Retrieve the data we just inserted 
     query = self.cursor.execute('select * from spectrum') 
     result = self.cursor.fetchall() 

     print "Type of data retrieved:", type(result[0]['data']) 

     # Convert it back to a numpy array of the same shape 
     retrieved_data = np.frombuffer(result[0]['data']).reshape(*shape) 

     # Ensure there was no problem 
     assert np.all(retrieved_data == data) 
     print "Everything went swimmingly in test one!" 

     return True 

    def perform_test_two(self): 

     if not self.use_adapters: return False 

     # Lets do a test 

     shape = (2, 100) 
     data = np.random.random(shape) 

     # No changes made to the data, as the adapter should take care of it (and it does) 

     self.cursor.execute('insert into spectrum (data) values (%s) returning sid;', [data]) 

     # Retrieve the data we just inserted 
     query = self.cursor.execute('select * from spectrum') 
     result = self.cursor.fetchall() 

     # No need to change the type of data, as the converter should take care of it 
     # (But, we never make it here) 

     retrieved_data = result[0]['data'] 

     # Ensure there was no problem 
     assert np.all(retrieved_data == data.flatten()) 
     print "Everything went swimmingly in test two!" 

     return True 

    def setup_adapters_and_converters(self): 

     # Set up test adapters 
     psycopg2.extensions.register_adapter(np.ndarray, my_adapter) 

     # Register our converter 
     self.cursor.execute("select null::bytea;") 
     my_oid = self.cursor.description[0][1] 

     obj = psycopg2.extensions.new_type((my_oid,), "numpy_array", my_converter) 
     psycopg2.extensions.register_type(obj, self.connection) 


     self.use_adapters = True 

    def tear_down(self): 

     # Tear down 


     connection = psycopg2.connect(host=self.host, user=self.user, password=self.password) 


     cursor = connection.cursor() 
     cursor.execute('drop database %s' % (self.database,)) 

test = MyBinaryTest() 

Teraz test # 1 działa dobrze. Kiedy weźmie się kod użyty w teście 1 i skonfiguruję adapter i konwerter psycopg2, to nie działa (test 2). Dzieje się tak dlatego, że dane podawane do konwertera nie są już w rzeczywistości buforami; jest to ciąg znaków reprezentujących bajtów w PosgreSQL. Wyjście jest w następujący sposób:

In [1]: run -i test_binary.py 
Type of data retrieved: type 'buffer'> 
Everything went swimmingly in test one! 
ERROR: An unexpected error occurred while tokenizing input 
The following traceback may be corrupted or invalid 
The error message is: ('EOF in multi-line statement', (273, 0)) 

ValueError        Traceback (most recent call last) 

/Users/andycasey/thesis/scope/scope/test_binary.py in <module>() 
    155 test.perform_test_one() 
    156 test.setup_adapters_and_converters() 
--> 157 test.perform_test_two() 
    158 test.tear_down() 

/Users/andycasey/thesis/scope/scope/test_binary.py in perform_test_two(self) 
    101   # Retrieve the data we just inserted 

    102   query = self.cursor.execute('select * from spectrum') 
--> 103   result = self.cursor.fetchall() 
    105   # No need to change the type of data, as the converter should take care of it 

/Library/Python/2.6/site-packages/psycopg2/extras.pyc in fetchall(self) 
    81  def fetchall(self): 
    82   if self._prefetch: 
---> 83    res = _cursor.fetchall(self) 
    84   if self._query_executed: 
    85    self._build_index() 

/Users/andycasey/thesis/scope/scope/test_binary.py in my_converter(my_buffer, cursor) 
     8 def my_converter(my_buffer, cursor): 
----> 9  return np.frombuffer(my_buffer) 

ValueError: buffer size must be a multiple of element size 
WARNING: Failure executing file: <test_binary.py> 

In [2]: %debug 
> /Users/andycasey/thesis/scope/scope/test_binary.py(9)my_converter() 
     8 def my_converter(my_buffer, cursor): 
----> 9  return np.frombuffer(my_buffer) 

ipdb> my_buffer 

Czy ktoś wie jak mogę (a) de-serializacji reprezentację ciąg wraca do mnie w my_converter więc zwróciła tablicy numpy za każdym razem, lub (b) PostgreSQL siły/psycopg2, aby wysłać reprezentację bufora do konwertera (którego mogę użyć) zamiast reprezentacji ciągów znaków?


Jestem na OS X 10.6.8 z Pythona 2.6.1 (r261: 67.515), PostgreSQL 9.0.3 i psycopg2 2,4 (dt dec PQ3 EXT)



Format widać w debugger jest łatwe parsować: jest to binarny format PostgreSQL (http://www.postgresql.org/docs/9.1/static/datatype-binary.html). psycopg może analizować ten format i zwracać bufor zawierający dane; możesz użyć tego bufora, aby uzyskać tablicę. Zamiast pisać typograficzny od podstaw, napisz jeden wywołujący oryginalny func i postprocessuj jego wynik. Przepraszamy, ale nie pamiętam teraz jego nazwy i piszę z telefonu komórkowego: możesz uzyskać dalszą pomoc z listy mailingowej.

Edytuj: pełne rozwiązanie.

Domyślna bytea typecaster (która jest obiektem, który można analizować Postgres'a binarnej reprezentacji i zwrócić Pamięci Buforowej Obiektu na niej) jest psycopg2.BINARY. Możemy użyć go do stworzenia typecaster konwersji do tablicy zamiast:

In [1]: import psycopg2 

In [2]: import numpy as np 

In [3]: a = np.eye(3) 

In [4]: a 
array([[ 1., 0., 0.], 
     [ 0., 1., 0.], 
     [ 0., 0., 1.]]) 

In [5]: cnn = psycopg2.connect('') 

# The adapter: converts from python to postgres 
# note: this only works on numpy version whose arrays 
# support the buffer protocol, 
# e.g. it works on 1.5.1 but not on 1.0.4 on my tests. 

In [12]: def adapt_array(a): 
    ....:  return psycopg2.Binary(a) 

In [13]: psycopg2.extensions.register_adapter(np.ndarray, adapt_array) 

# The typecaster: from postgres to python 

In [21]: def typecast_array(data, cur): 
    ....:  if data is None: return None 
    ....:  buf = psycopg2.BINARY(data, cur) 
    ....:  return np.frombuffer(buf) 

In [24]: ARRAY = psycopg2.extensions.new_type(psycopg2.BINARY.values, 
'ARRAY', typecast_array) 

In [25]: psycopg2.extensions.register_type(ARRAY) 

# Now it works "as expected" 

In [26]: cur = cnn.cursor() 

In [27]: cur.execute("select %s", (a,)) 

In [28]: cur.fetchone()[0] 
Out[28]: array([ 1., 0., 0., 0., 1., 0., 0., 0., 1.]) 

Jak wiecie, np.frombuffer (a) traci kształt tablicy, więc trzeba będzie aby wymyślić sposób, aby ją zachować.


Dzięki @piro - I ha ve wypróbował parsowanie tego formatu hex (i formatu escape PostgreSQL) używając takich rzeczy jak 'np.frombuffer (buffer (my_buffer [2:]. decode ('hex'), 0, 1600))', ale nie udało mi się pobieranie oryginalnej tablicy. Jeśli potrafisz przywołać funkcje analizujące ten format, byłbym bardzo wdzięczny. Poprosiłem o listę mailingową i równie chętnie sprawdzają, jak ten problem został rozwiązany. Dzięki! –


* bump * .. Ktoś? –


W przypadku numpy tablic można uniknąć strategii bufora ze wszystkimi jego wadami, takimi jak utrata kształtu i typ danych. Po numerze stackoverflow question dotyczącym przechowywania tablicy numpy w sqlite3 można z łatwością dostosować podejście do PostgreSQL.

import os 
import psycopg2 as psql 
import numpy as np 

# converts from python to postgres 
def _adapt_array(text): 
    out = io.BytesIO() 
    np.save(out, text) 
    return psql.Binary(out.read()) 

# converts from postgres to python 
def _typecast_array(value, cur): 
    if value is None: 
     return None 

    data = psql.BINARY(value, cur) 
    bdata = io.BytesIO(data) 
    return np.load(bdata) 

con = psql.connect('') 

psql.extensions.register_adapter(np.ndarray, _adapt_array) 
t_array = sql.extensions.new_type(sql.BINARY.values, "numpy", _typecast_array) 

cur = con.cursor() 

Teraz można tworzyć i wypełnić tabelę (z a zdefiniowanym jak w poprzednim poście)

cur.execute("create table test (column BYTEA)") 
cur.execute("insert into test values(%s)", (a,)) 

i przywrócić obiektowi NumPy

cur.execute("select * from test") 


array([[ 1., 0., 0.], 
     [ 0., 1., 0.], 
     [ 0., 0., 1.]]) 
