MySQL插入中文数据时出现乱码是开发中十分常见的问题,核心原因基本都是字符编码配置不一致,涉及的环节包括数据库服务端编码、数据表编码、客户端连接编码三个部分,只要保证全链路编码统一,就能解决大部分乱码问题。

常见乱码场景与原因
常见的乱码表现有两种,一种是插入中文后数据库存储的是问号,另一种是查询出来的中文显示为乱码字符。这两种情况大多是因为以下原因导致:
- 数据库实例的默认字符集不是支持中文的编码,比如使用了latin1编码
- 数据表的字符集没有继承或单独设置为支持中文的编码
- 客户端连接数据库时,没有指定正确的字符编码,导致传输过程中编码转换错误
数据库层面编码配置
首先需要确认MySQL服务端的默认编码配置,避免新建数据库时默认使用不支持中文的编码。可以通过如下SQL语句查看当前实例的编码配置:
-- 查看MySQL服务端字符集相关配置 SHOW VARIABLES LIKE 'character_set%'; SHOW VARIABLES LIKE 'collation%';
如果查询结果中character_set_server的值为latin1或者其他非utf8类编码,需要修改MySQL的配置文件,在Linux系统中通常是/etc/my.cnf,Windows系统中是my.ini,在对应配置段添加如下内容:
[mysqld] # 设置服务端默认字符集为utf8mb4,支持所有Unicode字符包括emoji character-set-server=utf8mb4 collation-server=utf8mb4_unicode_ci [client] # 客户端默认字符集 default-character-set=utf8mb4 [mysql] # MySQL命令行客户端默认字符集 default-character-set=utf8mb4
修改完成后重启MySQL服务,之后新建的数据库默认就会使用utf8mb4编码。
数据表层面编码配置
如果已经存在的数据库或数据表编码不符合要求,可以单独修改对应的编码。修改已有数据库的编码:
-- 修改数据库编码为utf8mb4 ALTER DATABASE 数据库名 CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
修改已有数据表的编码,同时转换表中已有字段的编码:
-- 修改数据表编码,同时转换字段编码 ALTER TABLE 表名 CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
新建数据表时也可以直接指定编码,避免后续修改:
-- 新建数据表时指定字符集
CREATE TABLE user_info (
id INT PRIMARY KEY AUTO_INCREMENT,
username VARCHAR(50) NOT NULL,
address VARCHAR(200)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
连接层编码配置
即使数据库和数据表编码都正确,如果客户端连接时没有指定编码,依然会出现乱码。不同语言的连接配置方式不同,以下是常见场景的示例。
JDBC连接配置
在Java的JDBC连接URL中需要指定字符编码参数:
// JDBC连接URL示例,指定字符编码为utf8mb4 String url = "jdbc:mysql://127.0.0.1:3306/test_db?useUnicode=true&characterEncoding=utf8mb4&serverTimezone=Asia/Shanghai";
Python连接配置
使用pymysql连接MySQL时,需要指定charset参数:
import pymysql
# 连接MySQL时指定字符集
conn = pymysql.connect(
host='127.0.0.1',
port=3306,
user='root',
password='123456',
database='test_db',
charset='utf8mb4'
)
PHP连接配置
PHP使用mysqli扩展连接时,可以在连接后设置编码:
<?php
$conn = new mysqli('127.0.0.1', 'root', '123456', 'test_db');
// 设置连接字符集为utf8mb4
$conn->set_charset('utf8mb4');
?>
验证编码是否生效
完成所有配置后,可以插入中文数据验证是否正常:
-- 插入中文测试数据
INSERT INTO user_info (username, address) VALUES ('张三', '北京市海淀区');
-- 查询数据验证是否正常显示
SELECT * FROM user_info;
如果查询出来的中文正常显示,说明编码配置已经生效,乱码问题已经解决。
注意事项
utf8和utf8mb4是有区别的,MySQL中的utf8编码最多只支持3字节的字符,无法存储emoji等4字节字符,而utf8mb4是完整的UTF-8编码实现,支持所有Unicode字符,所以建议优先使用utf8mb4编码。另外如果之前已经存在乱码数据,修改编码后历史乱码数据不会自动恢复,需要重新插入正确的数据。