2011-01-24 18 views
20

Mam ciągi znaków ze znakami specjalnymi, które chcę przekonwertować. Zwykle ręcznie znajduję wszystkie znaki specjalne i ich części "bezpieczne w Internecie" i umieszczam je w tablicach. Następnie używam preg_replace, aby zastąpić każdy z bohaterów.Konwertowanie ciągu znaków na bezpieczny internetowy identyfikator URI

Ale nie mogę pomóc, ale myślę, że jest łatwiejsze rozwiązanie, ponieważ jest to podejście do usuwania błędów.

Oto przykład tego, co chcę:

Hans Günther -> hans-gunther 
Jären höst -> jaeren-hoest 
René Ågesen -> rene-aagesen 
+0

To się nazywa [transliteracja] (http://en.wikipedia.org/wiki/Transliteracja). – Gumbo

Odpowiedz

54

ciąg urlencode (string $ str)

http://php.net/manual/en/function.urlencode.php

Faktycznie tutaj jest wielki post o konwersji tekstu jak twój przykład wyżej Ładne url-bezpieczne ciągi (prawdopodobnie lepsze dla ciebie niż powyższa funkcja):

http://cubiq.org/the-perfect-php-clean-url-generator

setlocale(LC_ALL, 'en_US.UTF8'); 
function toAscii($str, $replace=array(), $delimiter='-') { 
if(!empty($replace)) { 
    $str = str_replace((array)$replace, ' ', $str); 
} 

$clean = iconv('UTF-8', 'ASCII//TRANSLIT', $str); 
$clean = preg_replace("/[^a-zA-Z0-9\/_|+ -]/", '', $clean); 
$clean = strtolower(trim($clean, '-')); 
$clean = preg_replace("/[\/_|+ -]+/", $delimiter, $clean); 

return $clean; 
} 

Oto przykłady tego, co robi:

echo toAscii("Mess'd up --text-- just (to) stress /test/ ?our! `little` \\clean\\ url fun.ction!?-->"); 
returns: messd-up-text-just-to-stress-test-our-little-clean-url-function 

echo toAscii("Perché l'erba è verde?", "'"); // Italian 
returns: perche-l-erba-e-verde 

echo toAscii("Peux-tu m'aider s'il te plaît?", "'"); // French 
returns: peux-tu-m-aider-s-il-te-plait 

echo toAscii("Tänk efter nu – förr'n vi föser dig bort"); // Swedish 
returns: tank-efter-nu-forrn-vi-foser-dig-bort 

echo toAscii("ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖÙÚÛÜÝßàáâãäåæçèéêëìíîïðñòóôõöùúûüýÿ"); 
returns: aaaaaaaeceeeeiiiidnooooouuuuyssaaaaaaaeceeeeiiiidnooooouuuuyy 

echo toAscii("Custom`delimiter*example", array('*', '`')); 
returns: custom-delimiter-example 

echo toAscii("My+Last_Crazy|delimiter/example", '', ' '); 
returns: my last crazy delimiter example 

Jeśli chcesz przekonwertować coś jak na AE i etc można użyć skryptu tak (przepraszam, nie wiedzieć o lepszy sposób to zrobić):

setlocale(LC_ALL, 'de_DE'); 
$replace = array(
'illegal' => array('/Ä/', '/Ö/', '/Ü/', '/ä/', '/ö/', '/ü/', '/Â/', '/é/'), 
'legal' => array('Ae', 'Oe', 'Ue', 'ae', 'oe', 'ue', 'Aa', 'e') 
); 
$string = 'ich hätte gerne brötechen Mein Name ist Öles Âlex'; 
echo preg_replace($replace['illegal'], $replace['legal'], $string); 

//Output: "ich haette gerne broetechen Mein Name ist Oeles Aalex" 

można oczywiście je połączyć tak (tylko konwersji U-> ue itp, po prostu dodaj więcej do pierwszej preg_replace):

setlocale(LC_ALL, 'en_US.UTF8'); 
function toAscii($str, $replace=array(), $delimiter='-') { 
    if(!empty($replace)) { 
     $str = str_replace((array)$replace, ' ', $str); 
    } 

$clean = preg_replace(array('/Ä/', '/Ö/', '/Ü/', '/ä/', '/ö/', '/ü/'), array('Ae', 'Oe', 'Ue', 'ae', 'oe', 'ue'), $str); 
    $clean = iconv('UTF-8', 'ASCII//TRANSLIT', $clean); 
    $clean = preg_replace("/[^a-zA-Z0-9\/_|+ -]/", '', $clean); 
    $clean = strtolower(trim($clean, '-')); 
    $clean = preg_replace("/[\/_|+ -]+/", $delimiter, $clean); 

    return $clean; 
} 

$text = "Hätten Sie gerne viele Brötchen? Wenn ja dann einfach *[email protected]#$%^&*()eingeben..."; 
echo toAscii($text); 
//OUTPUT: haetten-sie-gerne-viele-broetchen-wenn-ja-dann-einfach-eingeben 
+1

urlencode spowoduje, że znaki będą zakodowane i niełatwo je odczytać. Jeśli właśnie przekazujesz parametry w ciągu zapytania, wszystko będzie dobrze. Jeśli jednak chcesz utworzyć łatwy odczyt adresu URL, prawdopodobnie będziesz musiał skorzystać z funkcji zastępowania. –

+0

tak ... po prostu dodałem coś jeszcze po tym, jak zdałem sobie sprawę, że – o1iver

+0

To nie oznacza transliteracji * ä * do * ae *. – Gumbo

1

Powyższy kod nie działał dla znaków akcentowanych.

W tym celu musiałem zastąpić myselt to caracters o równowartość bez akcentu:

function replace_accent($str) 
{ 
    $a = array('À', 'Á', 'Â', 'Ã', 'Ä', 'Å', 'Æ', 'Ç', 'È', 'É', 'Ê', 'Ë', 'Ì', 'Í', 'Î', 'Ï', 'Ð', 'Ñ', 'Ò', 'Ó', 'Ô', 'Õ', 'Ö', 'Ø', 'Ù', 'Ú', 'Û', 'Ü', 'Ý', 'ß', 'à', 'á', 'â', 'ã', 'ä', 'å', 'æ', 'ç', 'è', 'é', 'ê', 'ë', 'ì', 'í', 'î', 'ï', 'ñ', 'ò', 'ó', 'ô', 'õ', 'ö', 'ø', 'ù', 'ú', 'û', 'ü', 'ý', 'ÿ', 'Ā', 'ā', 'Ă', 'ă', 'Ą', 'ą', 'Ć', 'ć', 'Ĉ', 'ĉ', 'Ċ', 'ċ', 'Č', 'č', 'Ď', 'ď', 'Đ', 'đ', 'Ē', 'ē', 'Ĕ', 'ĕ', 'Ė', 'ė', 'Ę', 'ę', 'Ě', 'ě', 'Ĝ', 'ĝ', 'Ğ', 'ğ', 'Ġ', 'ġ', 'Ģ', 'ģ', 'Ĥ', 'ĥ', 'Ħ', 'ħ', 'Ĩ', 'ĩ', 'Ī', 'ī', 'Ĭ', 'ĭ', 'Į', 'į', 'İ', 'ı', 'IJ', 'ij', 'Ĵ', 'ĵ', 'Ķ', 'ķ', 'Ĺ', 'ĺ', 'Ļ', 'ļ', 'Ľ', 'ľ', 'Ŀ', 'ŀ', 'Ł', 'ł', 'Ń', 'ń', 'Ņ', 'ņ', 'Ň', 'ň', 'ʼn', 'Ō', 'ō', 'Ŏ', 'ŏ', 'Ő', 'ő', 'Œ', 'œ', 'Ŕ', 'ŕ', 'Ŗ', 'ŗ', 'Ř', 'ř', 'Ś', 'ś', 'Ŝ', 'ŝ', 'Ş', 'ş', 'Š', 'š', 'Ţ', 'ţ', 'Ť', 'ť', 'Ŧ', 'ŧ', 'Ũ', 'ũ', 'Ū', 'ū', 'Ŭ', 'ŭ', 'Ů', 'ů', 'Ű', 'ű', 'Ų', 'ų', 'Ŵ', 'ŵ', 'Ŷ', 'ŷ', 'Ÿ', 'Ź', 'ź', 'Ż', 'ż', 'Ž', 'ž', 'ſ', 'ƒ', 'Ơ', 'ơ', 'Ư', 'ư', 'Ǎ', 'ǎ', 'Ǐ', 'ǐ', 'Ǒ', 'ǒ', 'Ǔ', 'ǔ', 'Ǖ', 'ǖ', 'Ǘ', 'ǘ', 'Ǚ', 'ǚ', 'Ǜ', 'ǜ', 'Ǻ', 'ǻ', 'Ǽ', 'ǽ', 'Ǿ', 'ǿ'); 
    $b = array('A', 'A', 'A', 'A', 'A', 'A', 'AE', 'C', 'E', 'E', 'E', 'E', 'I', 'I', 'I', 'I', 'D', 'N', 'O', 'O', 'O', 'O', 'O', 'O', 'U', 'U', 'U', 'U', 'Y', 's', 'a', 'a', 'a', 'a', 'a', 'a', 'ae', 'c', 'e', 'e', 'e', 'e', 'i', 'i', 'i', 'i', 'n', 'o', 'o', 'o', 'o', 'o', 'o', 'u', 'u', 'u', 'u', 'y', 'y', 'A', 'a', 'A', 'a', 'A', 'a', 'C', 'c', 'C', 'c', 'C', 'c', 'C', 'c', 'D', 'd', 'D', 'd', 'E', 'e', 'E', 'e', 'E', 'e', 'E', 'e', 'E', 'e', 'G', 'g', 'G', 'g', 'G', 'g', 'G', 'g', 'H', 'h', 'H', 'h', 'I', 'i', 'I', 'i', 'I', 'i', 'I', 'i', 'I', 'i', 'IJ', 'ij', 'J', 'j', 'K', 'k', 'L', 'l', 'L', 'l', 'L', 'l', 'L', 'l', 'l', 'l', 'N', 'n', 'N', 'n', 'N', 'n', 'n', 'O', 'o', 'O', 'o', 'O', 'o', 'OE', 'oe', 'R', 'r', 'R', 'r', 'R', 'r', 'S', 's', 'S', 's', 'S', 's', 'S', 's', 'T', 't', 'T', 't', 'T', 't', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'W', 'w', 'Y', 'y', 'Y', 'Z', 'z', 'Z', 'z', 'Z', 'z', 's', 'f', 'O', 'o', 'U', 'u', 'A', 'a', 'I', 'i', 'O', 'o', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'A', 'a', 'AE', 'ae', 'O', 'o'); 
    return str_replace($a, $b, $str); 
} 
function toURI($str, $replace = array(), $delimiter = '-') 
{ 
    if(!empty($replace)) 
    { 
     $str = str_replace((array) $replace, ' ', $str); 
    } 

    $clean=replace_accent($str); 
    $clean = iconv('UTF-8', 'ASCII//TRANSLIT', $clean); 
    $clean = preg_replace("/[^a-zA-Z0-9\/_|+ -]/", '', $clean); 
    $clean = strtolower(trim($clean, '-')); 
    $clean = preg_replace("/[\/_|+ -]+/", $delimiter, $clean); 

    return $clean; 
} 

Ten zrobić zadanie.

Powiązane problemy