python对utf-8的中文转换

2023-03-02 00:00:00 python utf

在Python中,字符串默认是以UTF-8编码存储的。如果你要从字符串中读取中文字符,Python会自动将其解码为Unicode字符集。如果要将Unicode字符集编码为UTF-8中文字符,则需要使用encode()函数,如果要将UTF-8中文字符解码为Unicode字符集,则需要使用decode()函数。

以下是一些示例代码:

将Unicode字符集编码为UTF-8中文字符:

# 将Unicode字符集编码为UTF-8中文字符
text = u'你好,世界!'
utf8_text = text.encode('utf-8')
print(utf8_text)

输出结果:

b'\xe4\xbd\xa0\xe5\xa5\xbd\xef\xbc\x8c\xe4\xb8\x96\xe7\x95\x8c\xef\xbc\x81'

将UTF-8中文字符解码为Unicode字符集:

# 将UTF-8中文字符解码为Unicode字符集
utf8_text = b'\xe4\xbd\xa0\xe5\xa5\xbd\xef\xbc\x8c\xe4\xb8\x96\xe7\x95\x8c\xef\xbc\x81'
text = utf8_text.decode('utf-8')
print(text)

输出结果:

你好,世界!

请注意,如果你使用的是Python 2.x版本,则需要将字符串前面添加一个'u',以将其表示为Unicode字符集。例如:text = u'你好,世界!'。在Python 3.x版本中,字符串默认就是Unicode字符集,因此不需要这样做。

相关文章