JavaScript的字符串处理机制在早期设计时就和Unicode标准紧密相关,不过由于其采用UCS-2编码方式存储字符,在处理现代Unicode字符时会遇到不少不符合预期的情况,尤其是涉及表情符号、扩展汉字等超出基本多文种平面的字符时,问题会更加明显。

JavaScript字符串的Unicode基础
Unicode为每个字符分配一个唯一的码点,范围从U+0000到U+10FFFF。其中U+0000到U+FFFF属于基本多文种平面(BMP),这部分字符在JavaScript中可以用一个16位编码单元表示。而U+10000到U+10FFFF的字符属于辅助平面,需要用两个16位编码单元表示,也就是我们常说的代理对。
JavaScript的字符串本质上是UTF-16编码的码元序列,每个码元是16位的无符号整数。当我们直接访问字符串的长度或者按索引取字符时,操作的是码元而不是实际的Unicode字符,这就是很多问题的根源。
常见的问题场景
- 表情符号的长度计算错误:比如😊的码点是U+1F60A,属于辅助平面,需要两个码元表示,直接获取length会得到2而不是1。
- 字符截取错误:用slice方法截取包含辅助平面字符的字符串时,可能会把代理对拆开,得到乱码字符。
- 遍历字符时漏掉辅助平面字符:用for循环按索引遍历字符串时,会把代理对的两个码元当成两个独立字符处理。
原生方法处理Unicode
charCodeAt与codePointAt的区别
charCodeAt方法返回指定索引位置的16位码元值,对于辅助平面字符,只能返回代理对的一半值,无法得到完整码点。
codePointAt是ES2015新增的方法,它会返回指定索引位置对应的完整Unicode码点,如果索引位置是代理对的第一个码元,会直接返回整个辅助平面字符的码点。
// 定义包含表情符号的字符串
const str = 'a😊b';
// 使用charCodeAt获取索引1的码元值
console.log(str.charCodeAt(1)); // 输出55357,是代理对的前半部分
// 使用codePointAt获取索引1的码点
console.log(str.codePointAt(1)); // 输出128522,即😊的完整码点
// 获取字符串的实际字符长度
function getRealLength(s) {
let len = 0;
for (let i = 0; i < s.length; i++) {
const code = s.codePointAt(i);
// 辅助平面字符的码点大于0xFFFF,占两个码元,索引需要额外加1
if (code > 0xFFFF) {
i++;
}
len++;
}
return len;
}
console.log(getRealLength(str)); // 输出3,符合实际字符数
String.fromCharCode与String.fromCodePoint
String.fromCharCode只能根据16位码元值生成字符,无法直接生成辅助平面的字符,需要传入代理对的两个码元值才能正确生成。
String.fromCodePoint可以直接接收完整的Unicode码点,生成对应的字符,包括辅助平面的字符。
// 用fromCharCode生成😊需要传入代理对的两个值 console.log(String.fromCharCode(0xD83D, 0xDE0A)); // 输出😊 // 用fromCodePoint直接传入完整码点 console.log(String.fromCodePoint(0x1F60A)); // 输出😊
正则表达式的u修饰符
ES2015为正则表达式新增了u修饰符,开启后正则会将字符串中的代理对识别为单个字符,避免匹配和截取时出现错误。
const str = '😊ab'; // 没有u修饰符时,.无法匹配辅助平面字符 console.log(/./.test(str)); // 输出false // 开启u修饰符后,.可以匹配单个Unicode字符 console.log(/./u.test(str)); // 输出true // 用u修饰符正确截取第一个字符 console.log(str.match(/./u)[0]); // 输出😊
实际开发中的处理建议
- 如果项目中需要处理大量Unicode字符,尤其是辅助平面字符,建议封装通用的工具方法,统一处理长度计算、字符截取、遍历等操作。
- 使用正则表达式处理字符串时,只要涉及Unicode字符,尽量开启u修饰符,避免匹配错误。
- 如果需要对字符串进行编码转换,比如转成UTF-8格式,要基于codePointAt获取的完整码点进行转换,不要直接操作码元。
注意:虽然现代浏览器和Node.js都已经支持codePointAt、fromCodePoint和u修饰符,但在一些低版本环境中可能不兼容,使用前需要确认运行环境的支持情况,或者引入对应的polyfill。
JavaScript字符串Unicode字符编码修改时间:2026-06-24 13:21:28