Pracuję z zestawem danych, który ma kilka kolumn reprezentujących liczby identyfikatorów całkowitych (np. TransactionId i accountId). Te numery ID mają często długość 12 cyfr, co czyni je zbyt dużymi, aby można je było zapisać jako 32-bitową liczbę całkowitą.W R lepiej używać liczb całkowitych64, liczbowych lub znakowych dla dużych liczb całkowitych?
Jakie jest najlepsze podejście w takiej sytuacji?
- Odczytaj ID jako ciąg znaków.
- Odczytaj ID jako liczbę całkowitą64, używając pakietu bit64.
- Odczytaj identyfikator jako numeryczny (tj. Podwójny).
I zostali ostrzeżeni o niebezpieczeństwach równości testowanie z deblu, ale nie jestem pewien, czy to będzie problem w kontekście wykorzystania ich jako identyfikatorów, gdzie może scalić i filtrów opartych na nich, ale nigdy nie wykonuj arytmetyki na numerach identyfikacyjnych.
Ciągi znaków wydają się intuicyjnie podobne do woli, aby testować równość i scalać, ale być może w praktyce nie ma to większego znaczenia.
Pojęciowo są to znaki (lub nawet zmienna czynnikowa) i traktuję je jako takie. Scalanie danych z kluczem znakowym odbywa się bardzo szybko. – Roland