MYSQL中的COLLATE是用来定义字符集下字符串比较和排序规则的配置项,它和字符集强绑定,每一个字符集都对应多个可选的COLLATE选项,这些选项直接决定了字符串在数据库中的比较逻辑、排序结果以及大小写敏感特性。

COLLATE的核心作用
COLLATE的主要作用体现在以下几个方面:
- 定义字符串比较规则:比如判断两个字符串是否相等、哪个字符串更大,都会按照COLLATE指定的规则执行。
- 控制排序逻辑:对字符串字段进行排序时,排序的顺序由COLLATE决定,比如中文是按照拼音还是笔画排序,英文是否区分大小写排序。
- 决定大小写敏感性:部分COLLATE选项会让字符串比较区分大小写,部分则不区分,这直接影响查询条件匹配的结果。
- 处理特殊字符和多语言字符:不同COLLATE对特殊符号、多语言字符的排序和比较逻辑不同,适配不同地区的语言使用习惯。
常见COLLATE的命名规则
MYSQL中COLLATE的命名通常遵循字符集名_语言/地区_特性的格式,其中特性部分最常见的是ci、cs、bin:
ci:全称Case Insensitive,表示大小写不敏感,比较字符串时忽略大小写差异。cs:全称Case Sensitive,表示大小写敏感,大小写不同的字符串会被判定为不相等。bin:全称Binary,按照字符的二进制编码值进行比较,区分大小写,排序规则也严格按照编码值来。
不同COLLATE的区别对比
以最常用的utf8mb4字符集下的几个常见COLLATE为例,它们的区别如下:
| COLLATE名称 | 大小写敏感 | 排序规则 | 适用场景 |
|---|---|---|---|
| utf8mb4_general_ci | 否 | 简单的Unicode排序,性能较好 | 对排序精度要求不高的通用场景,比如普通业务系统的字符串存储 |
| utf8mb4_unicode_ci | 否 | 符合Unicode标准的排序规则,支持更多语言的准确排序 | 需要适配多语言、对排序准确性要求高的场景 |
| utf8mb4_bin | 是 | 按照字符二进制编码排序 | 需要严格区分大小写、要求精确比较的场景,比如存储区分大小写的编码、令牌等 |
| utf8mb4_cs_0900_ai_ci | 是 | 基于Unicode 9.0标准的大小写敏感排序 | MYSQL 8.0+版本下需要区分大小写且符合Unicode标准的场景 |
COLLATE的设置与查看
查看当前支持的COLLATE
可以通过以下SQL语句查看MYSQL支持的所有COLLATE以及对应的字符集:
-- 查看所有COLLATE信息 SHOW COLLATION; -- 查看指定字符集下的所有COLLATE,比如utf8mb4 SHOW COLLATION WHERE CHARSET = 'utf8mb4';
设置COLLATE的层级
MYSQL支持在多个层级设置COLLATE,优先级从低到高依次是:服务器级 < 数据库级 < 表级 < 字段级 < 查询级。
1. 服务器级设置
可以在MYSQL配置文件my.cnf中添加以下配置,重启后生效:
[mysqld] character-set-server=utf8mb4 collation-server=utf8mb4_unicode_ci
2. 数据库级设置
创建数据库时指定COLLATE:
-- 创建使用utf8mb4字符集、utf8mb4_unicode_ci排序规则的数据库 CREATE DATABASE test_db CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
3. 表级设置
创建表时指定所有字符串字段的默认COLLATE:
CREATE TABLE user_info (
id INT PRIMARY KEY AUTO_INCREMENT,
username VARCHAR(50),
nickname VARCHAR(50)
) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
4. 字段级设置
单独为某个字段指定不同的COLLATE:
CREATE TABLE user_info (
id INT PRIMARY KEY AUTO_INCREMENT,
username VARCHAR(50) COLLATE utf8mb4_bin, -- 用户名区分大小写
nickname VARCHAR(50) COLLATE utf8mb4_unicode_ci -- 昵称不区分大小写
) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
5. 查询级设置
在查询时临时指定COLLATE,覆盖字段原有的设置:
-- 查询时按照大小写敏感的规则比较username SELECT * FROM user_info WHERE username COLLATE utf8mb4_bin = 'Admin';
使用COLLATE的注意事项
- 如果两个字符串的COLLATE不一致,在比较或者关联查询时会报错,需要先统一COLLATE再做操作。
- 修改已有表或者字段的COLLATE时,如果表中已经有数据,需要确认修改后不会影响现有数据的比较和排序逻辑,最好提前备份数据。
- utf8mb4_general_ci的性能比utf8mb4_unicode_ci稍好,但是排序准确性稍弱,如果不是多语言场景,对性能要求高可以选择前者。
- 存储需要区分大小写的内容比如密码哈希、唯一标识时,建议选择带
bin或者cs的COLLATE,避免大小写不敏感导致的数据重复问题。
注意:MYSQL 8.0之后默认的字符集是utf8mb4,默认的COLLATE是utf8mb4_0900_ai_ci,和之前版本的默认设置不同,迁移数据库时需要特别注意兼容性问题。