Usuwanie CRLF (0D 0A) z łańcucha w Perlu

Mam skrypt Perla, który zużywa plik XML w systemie Linux i czasami istnieją CRLF (Hex 0D0A, Dos nowe linie) w niektórych wartości węzła, które.Usuwanie CRLF (0D 0A) z łańcucha w Perlu

System, który tworzy plik XML, zapisuje go jako pojedynczą linię i wygląda na to, że od czasu do czasu decyduje, że jest to zbyt długa i zapisuje CRLF w jednym z elementów danych. Niestety nic nie mogę zrobić z systemem dostarczającym.

Po prostu muszę usunąć te z ciągu, zanim go przetworzę.

Próbowałem wszystkich rodzajów zastępowania wyrażeń regularnych za pomocą klas znaków perla, wartości szesnastkowych, wszelkiego rodzaju i nic nie działa.

Uruchomiłem nawet plik wejściowy przez dos2unix przed przetworzeniem i nadal nie mogę pozbyć się błędnych znaków.

Czy ktoś ma jakieś pomysły?

Wielkie dzięki,

Źródło

2010-07-02 HeHasMoments

Typowy, Po wywalczeniu przez około 2 godziny, ja go rozwiązać w ciągu 5 minut zadać pytanie ..

$output =~ s/[\x0A\x0D]//g;

Wreszcie dostał.

Źródło

2010-07-02 15:23:55 HeHasMoments

Efekt Rubberduck. To nigdy nie zawodzi! :) –

Należy pamiętać, że usuwa to wszystkie wystąpienia znaków '\ r' i' \ n', a nie ciąg '\ r \ n' (wystarczy, że' \ r' lub '\ n' może być poprawnymi wartościami które potrzebujesz w innych miejscach) –

$output =~ tr/\x{d}\x{a}//d;

Są to zarówno znaki odstępu, więc jeśli terminatory są zawsze na końcu, można kliknąć prawym wykończenia z

$output =~ s/\s+\z//;

Źródło

2010-07-02 15:34:11

tr /// jest szybszy niż regex tutaj ... – dawg

Brilliant. Eliminowanie białej przestrzeni !!! – downeyt

kilka możliwości:
1. Wymień wszystkie wystąpienia Cr/LF LF: $output =~ s/\r\n/\n/g; #instead of \r\n might want to use \012\015
2. Usuń wszystkie spacje końcowe: output =~ s/\s+$//g;
3. Slurp i dzielone:

#!/usr/bin/perl -w 

use strict; 
use LWP::Simple; 

    sub main{ 
     createfile(); 
     outputfile(); 
    } 

    main(); 

    sub createfile{ 
     (my $file = $0)=~ s/\.pl/\.txt/; 

     open my $fh, ">", $file; 
     print $fh "1\n2\r\n3\n4\r\n5"; 
     close $fh; 
    } 

    sub outputfile{ 
     (my $filei = $0)=~ s/\.pl/\.txt/; 
     (my $fileo = $0)=~ s/\.pl/out\.txt/; 

     open my $fin, "<", $filei; 
     local $/;        # slurp the file 
     my $text = <$fin>;      # store the text 
     my @text = split(/(?:\r\n|\n)/, $text); # split on dos or unix newlines 
     close $fin; 

     local $" = ", ";       # change array scalar separator 
     open my $fout, ">", $fileo; 
     print $fout "@text";      # should output numbers separated by comma space 
     close $fout; 
    }

Źródło

2010-07-03 02:03:47 vol7ron

+1 slurp, +1 split –

Usuwanie CRLF (0D 0A) z łańcucha w Perlu

Odpowiedz

Powiązane problemy