MariaDB查询不通过PHP运行,手动处理HeidiSQL;en破折号编码问题;正确的DB utf8mb4字符集和排序规则
我正在从Gmail帐户导入电子邮件并将其存储在数据库中。显然,我将所有内容转换为UTF-8的PHP逻辑在一封特定的电子邮件中失败,当我使用该电子邮件运行查询时,我收到以下MariaDB错误:
错误的字符串值:‘X96 conv.’
以下是SQL查询的最小化版本:
INSERT INTO mail (subject) VALUES ('orkut – convite...');
我最终找到了标题主题字符串。在我的一般MariaDB查询日志中,字符串显示为预期的en dash(–
):orkut – conv...
。当PHP尝试运行查询时,我收到错误Incorrect string value
,如上所述,但是,当我通过HeidiSQL手动运行完全相同的查询时,查询执行得很好!
在键和值之间拆分头部,然后按如下方式处理值:
$p = explode(': ', $header, 2);
$s = mb_convert_encoding(trim($p[1]), 'UTF-8', mb_detect_encoding($p[1]))
现在我尝试了很多方法,我能得到的最接近的方法是cmbuckly's answer on another thread,但是使用$s = iconv('utf-8', 'windows-1252', $s);
在这种情况下不能解决问题。我还有很多其他的尝试,比如事后使用utf8_encode($s)
,尽管我现在只是不知所措。
- 我的MariaDB数据库具有正确的
utf8mb4
字符集和utf8mb4_unicode_520_ci
数据库排序规则。 - 我不打算尝试使用MariaDB对文本进行编码/重新编码,这是一个明确的PHP问题。
解决方案
https://www.fileformat.info/info/unicode/char/2013/charset_support.htm
仅在使用windows cp125x encoding时,连字符中才有0x96
字节。
找出您的源数据使用的是哪一个,并使用
将其转换为UTF8$utf8_data = mb_convert_encoding($data, 'UTF-8', 'cp125x');
其他:UTF-8 all the way through
相关文章