Konwertowanie specjalnych znaków, takich jak Ã¼ i Ã, z powrotem do ich oryginalnych, łacińskich odpowiedników w alfabecie w C#

Dostałem eksport z bazy danych MySQL, która wydawała się mieć nieco zakodowane kodowanie i zawiera mieszankę HTML char codes, taką jak & uuml; i innych problematycznych znaków reprezentujących te same litery, na przykład Ã¼ i Ãƒ. Moim zadaniem jest przywrócenie spójności pliku i uzyskanie wszystkich poprawnych znaków łacińskich, np. ú i ó.Konwertowanie specjalnych znaków, takich jak Ã¼ i Ã, z powrotem do ich oryginalnych, łacińskich odpowiedników w alfabecie w C#

Przykładem rodzaju sznurka mam do czynienia z jest

DesinfektionslÃƒÂ¶sungstÃƒÂ¼cher fÃƒÂ¼r FlÃƒÂ¤chen

Która powinna równać się

50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen 
50 Tattoo Desinfektionsl ÃƒÂ¶ sungst ÃƒÂ¼ cher f ÃƒÂ¼ r Fl ÃƒÂ¤ chen

Czy istnieje metoda dostępny w C#/.Net 4.5, który z powodzeniem ponownie kodowałby, takie jak Ã¼ i Ãƒ t o UTF-8?

Inne, jakie podejście byłoby wskazane?

Czy w powyższym przykładzie występuje również znak akapitu ¶? Rzeczywisty znak akapitu lub część innej kombinacji znaków?

Utworzyłem tabelę odnośników w przypadku konieczności znalezienia i zamiany poniżej, jednak nie jestem pewien, jak to jest kompletne.

Ã‰ -> É 
â€œ -> " 
â€ -> " 
Ã‡ -> Ç 
Ãƒ -> Ã 
Ã©, 'é 
Ã -> À 
Ãº -> ú 
â€¢ -> - 
Ã˜ -> Ø 
Ãµ -> õ 
Ã -> í 
Ã¢ -> â 
Ã£ -> ã 
Ãª -> ê 
Ã¡ -> á 
Ã© -> é 
Ã³ -> ó 
â€“ -> – 
Ã§ -> ç 
Âª -> ª 
Âº -> º 
Ã -> à

Źródło

2013-02-20 Gareth Harding

Miejsce pedanterii: 'Ã¼' i' Ãƒ' nie są "znakami specjalnymi" dokładnie, ale ** [Mojibake] (https://en.wikipedia.org/wiki/Mojibake) **. – Boann

@Boann ped away ... ciekawe –

Btw twój post jest nieco mylący, po naprawieniu danych otrzymałem 'Desinfektionslösungstücher für Flächen', który wydaje się być poprawny, ale w twoim oczekiwanym wyniku masz spacje. – Esailija

Cóż, przede wszystkim, gdy dane zostały dekodowane przy użyciu złego kodowania, to jest prawdopodobne, że niektóre znaki są niemożliwe do odzyskania. Wygląda na to, że jest to dane UTF-8, które zostały niepoprawnie zdekodowane przy użyciu 8-bitowego kodowania.

Nie ma wbudowanej metody odzyskiwania takich danych, ponieważ nie jest to normalne działanie. Nie ma niezawodnego sposobu dekodowania danych, ponieważ jest on już uszkodzony.

Co można spróbować, to do kodowania danych i dekodować go ponownie przy użyciu niewłaściwego kodowania, tylko na odwrót:

byte[] data = Encoding.Default.GetBytes(input); 
string output = Encoding.UTF8.GetString(data);

Encoding.Default wykorzystuje aktualną kodowanie ANSI dla swojego systemu. Możesz wypróbować różne kodowania i sprawdzić, który z nich daje najlepszy wynik.

Źródło

2013-02-20 13:01:30 Guffa

Dzięki, myślę, że twoja teoria, że dane mogą być nieodwracalne, może być poprawna. Zepsułem sznurek tak, jak ... 50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen --- and --- 50 Tattoo Desinfektionsl Ã ¶ sungst ÃƒÂ¼¼ cher f Ã,Â¼ r Fl Ã ¼ chen. więc wiem, co powinno się pojawić, ale wciąż nie można przekonwertować kodu. –

Twój kod w połączeniu z ustaleniami @pawlakppp rozwiązał problem, więc dzięki wam. –

To prawdopodobnie zakodowany w systemie Windows-1252 ciąg znaków, który odczytałeś jako UTF-8.

Ponieważ wymienione dane Guffa zostały uszkodzone.

Pozwala spojrzeć na bajtów:
O -> C3B6 w UTF8

w windows-1252 C3 -> A B6 -> ¶

tak ö -> Ã¶

co o tych wszystkich "ƒÂ":

ƒ -> 83 A -> C2

Uczciwość nie wiem, dlaczego się pojawiają, ale możesz spróbować je wymazać i wykonać kilka konwersji, o czym wspomniał Guffa. Powodzenia

Źródło

2013-02-20 13:58:43

Dzięki, ja sam śledzę te same kwestie i usunąłem "ƒ". Ponowny eksport danych usunął je i zamienił A-kapelusze na A-tyldy, co jest dobre, a następnie wydaje się, że istnieje wyraźna konwersja, jak przedstawiono tutaj: http://www.i18nqa.com/debug/utf8-debug .html –

Dane są częściowo niemożliwe do odzyskania dzięki kodowaniu Windows-1252 z 5 nieprzypisanymi gniazdami. Niektóre modyfikacje Windows-1252 napełniają je znakami kontrolnymi , ale te nie trafiają do postów w Stackoverflow. Jeśli zmodyfikowano Windows-1252, możesz w pełni zregenerować się, dopóki nie utracisz ukrytych znaków kontrolnych w kopiowanych pastach.

Istnieje również znak spacji, który nie jest łamany, który jest ignorowany lub zamieniany w przestrzeń zwykle z copypastes, ale nie jest to problemem, gdy mamy do czynienia z bajtami bezpośrednio.

misencoding nadużycie napis ten przeszedł to:

UTF-8 -> Windows-1252 -> UTF-8 -> Windows-1252

Aby odzyskać, oto przykład:

String a = "DesinfektionslÃƒÂ¶sungstÃƒÂ¼cher fÃƒÂ¼r FlÃƒÂ¤chen"; 
Encoding utf8 = Encoding.GetEncoding(65001); 
Encoding win1252 = Encoding.GetEncoding(1252); 

string result = utf8.GetString(win1252.GetBytes(utf8.GetString(win1252.GetBytes(a)))); 

Console.WriteLine(result); 
//Desinfektionslösungstücher für Flächen

Źródło

2013-02-20 16:50:40 Esailija

Dzięki, wypróbuję to podejście. –

Tutaj można znaleźć listę Completer:

http://bueltge.de/wp-content/download/wk/utf-8_kodierungen.pdf

Źródło

2014-03-17 08:53:42

Przedtem miałem problem z tym znakiem. Rozwiązanie:

Mój. (Cs) plik html był UTF-8; Przekształciłem się w UTF-8Y (UTF-8 z BOMem).

Źródło

2017-12-27 19:51:49

Konwertowanie specjalnych znaków, takich jak Ã¼ i Ã, z powrotem do ich oryginalnych, łacińskich odpowiedników w alfabecie w C#

Odpowiedz

Powiązane problemy