JavaScript中如何处理字符串的Unicode字符

来源：个人站长网作者：仓本头衔：网络博主

导读：本期聚焦于小伙伴创作的《JavaScript中如何处理字符串的Unicode字符》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《JavaScript中如何处理字符串的Unicode字符》有用，将其分享出去将是对创作者最好的鼓励。

JavaScript的字符串处理机制在早期设计时就和Unicode标准紧密相关，不过由于其采用UCS-2编码方式存储字符，在处理现代Unicode字符时会遇到不少不符合预期的情况，尤其是涉及表情符号、扩展汉字等超出基本多文种平面的字符时，问题会更加明显。

JavaScript字符串的Unicode基础

Unicode为每个字符分配一个唯一的码点，范围从U+0000到U+10FFFF。其中U+0000到U+FFFF属于基本多文种平面（BMP），这部分字符在JavaScript中可以用一个16位编码单元表示。而U+10000到U+10FFFF的字符属于辅助平面，需要用两个16位编码单元表示，也就是我们常说的代理对。

JavaScript的字符串本质上是UTF-16编码的码元序列，每个码元是16位的无符号整数。当我们直接访问字符串的长度或者按索引取字符时，操作的是码元而不是实际的Unicode字符，这就是很多问题的根源。

常见的问题场景

表情符号的长度计算错误：比如😊的码点是U+1F60A，属于辅助平面，需要两个码元表示，直接获取length会得到2而不是1。
字符截取错误：用slice方法截取包含辅助平面字符的字符串时，可能会把代理对拆开，得到乱码字符。
遍历字符时漏掉辅助平面字符：用for循环按索引遍历字符串时，会把代理对的两个码元当成两个独立字符处理。

原生方法处理Unicode

charCodeAt与codePointAt的区别

charCodeAt方法返回指定索引位置的16位码元值，对于辅助平面字符，只能返回代理对的一半值，无法得到完整码点。

codePointAt是ES2015新增的方法，它会返回指定索引位置对应的完整Unicode码点，如果索引位置是代理对的第一个码元，会直接返回整个辅助平面字符的码点。

// 定义包含表情符号的字符串
const str = 'a😊b';
// 使用charCodeAt获取索引1的码元值
console.log(str.charCodeAt(1)); // 输出55357，是代理对的前半部分
// 使用codePointAt获取索引1的码点
console.log(str.codePointAt(1)); // 输出128522，即😊的完整码点
// 获取字符串的实际字符长度
function getRealLength(s) {
    let len = 0;
    for (let i = 0; i < s.length; i++) {
        const code = s.codePointAt(i);
        // 辅助平面字符的码点大于0xFFFF，占两个码元，索引需要额外加1
        if (code > 0xFFFF) {
            i++;
        }
        len++;
    }
    return len;
}
console.log(getRealLength(str)); // 输出3，符合实际字符数

String.fromCharCode与String.fromCodePoint

String.fromCharCode只能根据16位码元值生成字符，无法直接生成辅助平面的字符，需要传入代理对的两个码元值才能正确生成。

String.fromCodePoint可以直接接收完整的Unicode码点，生成对应的字符，包括辅助平面的字符。

// 用fromCharCode生成😊需要传入代理对的两个值
console.log(String.fromCharCode(0xD83D, 0xDE0A)); // 输出😊
// 用fromCodePoint直接传入完整码点
console.log(String.fromCodePoint(0x1F60A)); // 输出😊

正则表达式的u修饰符

ES2015为正则表达式新增了u修饰符，开启后正则会将字符串中的代理对识别为单个字符，避免匹配和截取时出现错误。

const str = '😊ab';
// 没有u修饰符时，.无法匹配辅助平面字符
console.log(/./.test(str)); // 输出false
// 开启u修饰符后，.可以匹配单个Unicode字符
console.log(/./u.test(str)); // 输出true
// 用u修饰符正确截取第一个字符
console.log(str.match(/./u)[0]); // 输出😊

实际开发中的处理建议

如果项目中需要处理大量Unicode字符，尤其是辅助平面字符，建议封装通用的工具方法，统一处理长度计算、字符截取、遍历等操作。
使用正则表达式处理字符串时，只要涉及Unicode字符，尽量开启u修饰符，避免匹配错误。
如果需要对字符串进行编码转换，比如转成UTF-8格式，要基于codePointAt获取的完整码点进行转换，不要直接操作码元。

注意：虽然现代浏览器和Node.js都已经支持codePointAt、fromCodePoint和u修饰符，但在一些低版本环境中可能不兼容，使用前需要确认运行环境的支持情况，或者引入对应的polyfill。

JavaScript 字符串 Unicode 字符编码修改时间：2026-06-24 13:21:28

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。