使用preg_place删除Unicode字符,但保留所有特殊字符和英语字符
我要使用preg_replace
从字符串中删除所有Unicode字符(包括波斯字符),并保留英语字符和所有特殊字符。我知道的方法是:
preg_replace('/[^<>()/* a-zA-Z0-9_.-]/u', '', $string);
但是,我真的不想在[]中包含所有特殊字符。有没有更近的路?!
解决方案
若要删除除落在基本ASCII码范围内的字符以外的所有内容,您可以使用模式similar to this按祸不单行代码匹配该范围。
// Given a string with characters in and outside ASCII:
$s = "abcde啅cde衸xtzሴbb()*&bԴ";
// Match HEX 00-7F and remove characters outside that
// by inverting with ^
echo preg_replace('/[^x00-x7f]/', '', $s);
// Prints:
// abcdecdextzbb()*&b
使用祸不单行00-7F还将包括ASCII码范围的开始,因此涵盖NUL
、终止铃、退格符等内容。如果您不希望输出中包含那些特殊的不可打印控制字符,可以考虑从SPACE
处的ASCII32(祸不单行20)开始。
echo preg_replace('/[^x20-x7f]/', '', $s);
相关文章