Ponieważ plik może być bardzo duży, dzielenia plików mogłaby sama aswell być duże:
Przykład:
Źródło Rozmiar pliku: 5GB
Num Dzieli: 5: Destination
Rozmiar pliku: 1 GB każdy (5 plików)
Nie da się odczytać tego dużego podzielonego kawałka za jednym razem, nawet jeśli mamy takie wspomnienie. Zasadniczo dla każdego podziału możemy odczytać rozmiar poprawki byte-array
, który, jak wiemy, powinien być wykonalny pod względem wydajności i pamięci.
NumSplits: 10 MaxReadBytes: 8kB
public static void main(String[] args) throws Exception
{
RandomAccessFile raf = new RandomAccessFile("test.csv", "r");
long numSplits = 10; //from user input, extract it from args
long sourceSize = raf.length();
long bytesPerSplit = sourceSize/numSplits ;
long remainingBytes = sourceSize % numSplits;
int maxReadBufferSize = 8 * 1024; //8KB
for(int destIx=1; destIx <= numSplits; destIx++) {
BufferedOutputStream bw = new BufferedOutputStream(new FileOutputStream("split."+destIx));
if(bytesPerSplit > maxReadBufferSize) {
long numReads = bytesPerSplit/maxReadBufferSize;
long numRemainingRead = bytesPerSplit % maxReadBufferSize;
for(int i=0; i<numReads; i++) {
readWrite(raf, bw, maxReadBufferSize);
}
if(numRemainingRead > 0) {
readWrite(raf, bw, numRemainingRead);
}
}else {
readWrite(raf, bw, bytesPerSplit);
}
bw.close();
}
if(remainingBytes > 0) {
BufferedOutputStream bw = new BufferedOutputStream(new FileOutputStream("split."+(numSplits+1)));
readWrite(raf, bw, remainingBytes);
bw.close();
}
raf.close();
}
static void readWrite(RandomAccessFile raf, BufferedOutputStream bw, long numBytes) throws IOException {
byte[] buf = new byte[(int) numBytes];
int val = raf.read(buf);
if(val != -1) {
bw.write(buf);
}
}
w pętli while, po prostu zbierz jak najwięcej linii, jak chcesz, do String lub StringBuilder i zapisz je do oddzielnych plików. Nie można wcześniej znać liczby plików, może być lepiej zdefiniować maksymalną liczbę wierszy w pliku. –
Musisz albo wykonać pętlę dwa razy, raz, aby uzyskać liczbę linii i raz podzielić. Można też domyślić się liczby linii i podzielić w ten sposób. –
@ kw4nta, dlaczego na ziemi chcesz ststore_ linii. 1) OP mówi, że przechowywanie wszystkich linii nie jest opcją, 2) biorąc pod uwagę, że możesz zapisać linie bezpośrednio do innego pliku ... –