Dostałem eksport z bazy danych MySQL, która wydawała się mieć nieco zakodowane kodowanie i zawiera mieszankę HTML char codes
, taką jak & uuml;
i innych problematycznych znaków reprezentujących te same litery, na przykład ü
i Ã
. Moim zadaniem jest przywrócenie spójności pliku i uzyskanie wszystkich poprawnych znaków łacińskich, np. ú
i ó
.Konwertowanie specjalnych znaków, takich jak ü i Ã, z powrotem do ich oryginalnych, łacińskich odpowiedników w alfabecie w C#
Przykładem rodzaju sznurka mam do czynienia z jest
Desinfektionslösungstücher für Flächen
Która powinna równać się
50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen
50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen
Czy istnieje metoda dostępny w C#/.Net 4.5, który z powodzeniem ponownie kodowałby, takie jak ü
i Ã
t o UTF-8
?
Inne, jakie podejście byłoby wskazane?
Czy w powyższym przykładzie występuje również znak akapitu ¶
? Rzeczywisty znak akapitu lub część innej kombinacji znaków?
Utworzyłem tabelę odnośników w przypadku konieczności znalezienia i zamiany poniżej, jednak nie jestem pewien, jak to jest kompletne.
É -> É
“ -> "
†-> "
Ç -> Ç
à -> Ã
é, 'é
à -> ú -> ú
• -> -
Ø -> Ø
õ -> õ
à -> í
â -> â
ã -> ã
ê -> ê
á -> á
é -> é
ó -> ó
– -> –
ç -> ç
ª -> ª
º -> º
à -> à
Miejsce pedanterii: 'ü' i' Ã' nie są "znakami specjalnymi" dokładnie, ale ** [Mojibake] (https://en.wikipedia.org/wiki/Mojibake) **. – Boann
@Boann ped away ... ciekawe –
Btw twój post jest nieco mylący, po naprawieniu danych otrzymałem 'Desinfektionslösungstücher für Flächen', który wydaje się być poprawny, ale w twoim oczekiwanym wyniku masz spacje. – Esailija