W języku Ruby, Jak odczytać kodowanie UTF-8 z gniazda?

Kiedy serwer wysyła bajty w formacie UTF-8, jak czytasz je bez znaków, które stają się czystymi bajtami? (\ x40 itd.)W języku Ruby, Jak odczytać kodowanie UTF-8 z gniazda?

Źródło

2012-06-27 lcarpenter

Jak czytasz gniazdo? – Reactormonk

Kombinacja funkcji IO :: select() i IO # read_nonblock – lcarpenter

wierzę read_nonblock wykorzystuje read, co z kolei mówi:

Otrzymany ciąg jest zawsze kodowania ASCII 8BIT.

Co oznacza, że nie trzeba określać IO#set_encoding, ale że można, po przeczytaniu cały łańcuch, życie jego kodowanie (używając String#force_encoding!) do UTF-8.

Podkreśliłem "cały", ponieważ musisz upewnić się, że czytasz cały znak Unicode na końcu łańcucha, tak jakby przeczytano tylko jego część, otrzymasz nieprawidłowy znak UTF-8, a Ruby może narzekać o tym dalej.

Źródło

2012-06-28 06:04:47

Możesz użyć IO#set_encoding, aby ustawić zewnętrzne kodowanie gniazda na UTF-8.

#!/usr/bin/env ruby 
# -*- coding: utf-8 -*- 

require 'socket' 

server_socket = TCPServer.new('localhost', 0) 
Thread.new do 
    loop do 
    session_socket = server_socket.accept 
    session_socket.set_encoding 'ASCII-8BIT' 
    session_socket.puts "  ᚁ ᚂ ᚃ ᚄ ᚅ ᚆ ᚇ ᚈ ᚉ ᚊ ᚋ ᚌ ᚍ" 
    session_socket.close 
    end 
end 

client_socket = TCPSocket.new('localhost', server_socket.addr[1]) 
client_socket.set_encoding 'UTF-8' 
p client_socket.gets 
# => "|  ᚁ ᚂ ᚃ ᚄ ᚅ ᚆ ᚇ ᚈ ᚉ ᚊ ᚋ ᚌ ᚍ\n"

Źródło

2012-06-27 13:04:55

Czy funkcja IO # set_encoding działa, jeśli czytam bajty off gniazda jeden po drugim z #read_nonblock? – lcarpenter

@lcarpenter, nie rozumiem, dlaczego nie. Czy próbowałeś go i okazało się, że tak nie jest? –

Ach, nie, ta metoda nie działa poprawnie – lcarpenter

W języku Ruby, Jak odczytać kodowanie UTF-8 z gniazda?

Odpowiedz

Powiązane problemy