2012-10-29 12 views
10

Podczas wklejania tekstu ze źródeł zewnętrznych do edytora tekstu zwykłego (np. TextMate lub Sublime Text 2) powszechnym problemem jest często wklejanie znaków specjalnych. Niektóre z tych znaków renderują się dobrze, ale w zależności od źródła, niektóre mogą nie wyświetlać się poprawnie (zwykle pojawiają się jako znak zapytania z ramką wokół niego).Jak znaleźć kod postaci specjalnej w moim edytorze tekstu?

Więc to jest rzeczywiście 2 pytania:

  1. otrzymuje znak specjalny (np "lub ♥) Mogę określić UTF-8 kodowania znaków używany do wyświetlania tego znaku od wewnątrz mojego edytora tekstu, a/lub konwertować te znaki na ich kody znaków?

  2. Dla tych "ekstra-specjalnych" znaków, które przychodzą jako śmieci, czy istnieje sposób, aby dowiedzieć się, jakie kodowanie zostało użyte do wyświetlenia tego znaku w źródłowym tekście i czy te znaki mogą zostać w jakiś sposób przekonwertowane na UTF-8? ?

+0

Możesz użyć tego [narzędzia online] (https://www.soscisurvey.de/tools/view-chars.php), aby wkleić ciągi znaków z nieznanymi znakami i zobaczyć ich numery Unicode. – BurninLeo

+0

Jako pomoc podstawową utworzyłem tabelę wszystkich kodów znaków z zakresu 0x80-0xFF w starszych 8-bitowych kodowaniach znanych z Python, do których często się odwołuję: https://cdn.rawgit.com/tripleee /8bit/master/encodings.html – tripleee

Odpowiedz

15

Moja ulubiona strona do wyszukiwania znaków to fileformat.info. Mają świetne wyszukiwanie znaków Unicode, które zawiera wiele przydatnych informacji o każdej postaci i jej różnych kodowaniach.

Jeśli widzisz znak zapytania z ramką, oznacza to, że wkleiłeś coś, czego nie można zinterpretować, często dlatego, że nie jest legalne w UTF-8 (nie każda sekwencja bajtowa jest legalnym UTF-8). Jedną z możliwości jest to, że jest to UTF-16 z trybem endian, którego twój edytor się nie spodziewa. Jeśli możesz uzyskać pełne oryginalne źródło w pliku, polecenie file jest często najlepszym narzędziem do określania kodowania.

+0

Ten link był przydatny, a stamtąd trafiłem na stronę http://www.i18nqa.com/debug/utf8-debug.html, która pokazuje tabelę zawierającą typowych podejrzanych. – Michael

+0

@RobNapier nie działa dla znaków spacji. – user2284570

7

Na stronie &what zbudowałem narzędzie do wyszukiwania znaków. Indeksuje wszystkie tabele encji Unicode i HTML, ale także uzupełnia słowniki hakerskie i bazę danych słów kluczowych, które zebrałem, dzięki czemu możesz wyszukiwać słowa, takie jak: heart, quot, weather, umlaut, hash, i uzyskiwać to, co chcesz. Koncentrując się na wyszukiwaniu, unika konieczności polowania na strony Unicode, co może być frustrujące. Spróbuj.

Powiązane problemy