使用preg_place删除Unicode字符,但保留所有特殊字符和英语字符

2022-03-22 00:00:00 php preg-replace

我要使用preg_replace从字符串中删除所有Unicode字符(包括波斯字符),并保留英语字符和所有特殊字符。我知道的方法是:

preg_replace('/[^<>()/* a-zA-Z0-9_.-]/u', '', $string);

但是,我真的不想在[]中包含所有特殊字符。有没有更近的路?!


解决方案

若要删除除落在基本ASCII码范围内的字符以外的所有内容,您可以使用模式similar to this按祸不单行代码匹配该范围。

// Given a string with characters in and outside ASCII:
$s = "abcde啅cde衸xtzሴbb()*&bԴ";

// Match HEX 00-7F and remove characters outside that
// by inverting with ^
echo preg_replace('/[^x00-x7f]/', '', $s);
// Prints:
// abcdecdextzbb()*&b

使用祸不单行00-7F还将包括ASCII码范围的开始,因此涵盖NUL、终止铃、退格符等内容。如果您不希望输出中包含那些特殊的不可打印控制字符,可以考虑从SPACE处的ASCII32(祸不单行20)开始。

echo preg_replace('/[^x20-x7f]/', '', $s);

相关文章