JavaScript中如何处理字符串的Unicode字符

来源:个人站长网作者:仓本头衔:网络博主
导读:本期聚焦于小伙伴创作的《JavaScript中如何处理字符串的Unicode字符》,敬请观看详情,探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《JavaScript中如何处理字符串的Unicode字符》有用,将其分享出去将是对创作者最好的鼓励。

JavaScript的字符串处理机制在早期设计时就和Unicode标准紧密相关,不过由于其采用UCS-2编码方式存储字符,在处理现代Unicode字符时会遇到不少不符合预期的情况,尤其是涉及表情符号、扩展汉字等超出基本多文种平面的字符时,问题会更加明显。

JavaScript中如何处理字符串的Unicode字符

JavaScript字符串的Unicode基础

Unicode为每个字符分配一个唯一的码点,范围从U+0000到U+10FFFF。其中U+0000到U+FFFF属于基本多文种平面(BMP),这部分字符在JavaScript中可以用一个16位编码单元表示。而U+10000到U+10FFFF的字符属于辅助平面,需要用两个16位编码单元表示,也就是我们常说的代理对。

JavaScript的字符串本质上是UTF-16编码的码元序列,每个码元是16位的无符号整数。当我们直接访问字符串的长度或者按索引取字符时,操作的是码元而不是实际的Unicode字符,这就是很多问题的根源。

常见的问题场景

  • 表情符号的长度计算错误:比如😊的码点是U+1F60A,属于辅助平面,需要两个码元表示,直接获取length会得到2而不是1。
  • 字符截取错误:用slice方法截取包含辅助平面字符的字符串时,可能会把代理对拆开,得到乱码字符。
  • 遍历字符时漏掉辅助平面字符:用for循环按索引遍历字符串时,会把代理对的两个码元当成两个独立字符处理。

原生方法处理Unicode

charCodeAt与codePointAt的区别

charCodeAt方法返回指定索引位置的16位码元值,对于辅助平面字符,只能返回代理对的一半值,无法得到完整码点。

codePointAt是ES2015新增的方法,它会返回指定索引位置对应的完整Unicode码点,如果索引位置是代理对的第一个码元,会直接返回整个辅助平面字符的码点。

// 定义包含表情符号的字符串
const str = 'a😊b';
// 使用charCodeAt获取索引1的码元值
console.log(str.charCodeAt(1)); // 输出55357,是代理对的前半部分
// 使用codePointAt获取索引1的码点
console.log(str.codePointAt(1)); // 输出128522,即😊的完整码点
// 获取字符串的实际字符长度
function getRealLength(s) {
    let len = 0;
    for (let i = 0; i < s.length; i++) {
        const code = s.codePointAt(i);
        // 辅助平面字符的码点大于0xFFFF,占两个码元,索引需要额外加1
        if (code > 0xFFFF) {
            i++;
        }
        len++;
    }
    return len;
}
console.log(getRealLength(str)); // 输出3,符合实际字符数

String.fromCharCode与String.fromCodePoint

String.fromCharCode只能根据16位码元值生成字符,无法直接生成辅助平面的字符,需要传入代理对的两个码元值才能正确生成。

String.fromCodePoint可以直接接收完整的Unicode码点,生成对应的字符,包括辅助平面的字符。

// 用fromCharCode生成😊需要传入代理对的两个值
console.log(String.fromCharCode(0xD83D, 0xDE0A)); // 输出😊
// 用fromCodePoint直接传入完整码点
console.log(String.fromCodePoint(0x1F60A)); // 输出😊

正则表达式的u修饰符

ES2015为正则表达式新增了u修饰符,开启后正则会将字符串中的代理对识别为单个字符,避免匹配和截取时出现错误。

const str = '😊ab';
// 没有u修饰符时,.无法匹配辅助平面字符
console.log(/./.test(str)); // 输出false
// 开启u修饰符后,.可以匹配单个Unicode字符
console.log(/./u.test(str)); // 输出true
// 用u修饰符正确截取第一个字符
console.log(str.match(/./u)[0]); // 输出😊

实际开发中的处理建议

  1. 如果项目中需要处理大量Unicode字符,尤其是辅助平面字符,建议封装通用的工具方法,统一处理长度计算、字符截取、遍历等操作。
  2. 使用正则表达式处理字符串时,只要涉及Unicode字符,尽量开启u修饰符,避免匹配错误。
  3. 如果需要对字符串进行编码转换,比如转成UTF-8格式,要基于codePointAt获取的完整码点进行转换,不要直接操作码元。
注意:虽然现代浏览器和Node.js都已经支持codePointAt、fromCodePoint和u修饰符,但在一些低版本环境中可能不兼容,使用前需要确认运行环境的支持情况,或者引入对应的polyfill。

JavaScript字符串Unicode字符编码修改时间:2026-06-24 13:21:28

免责声明:​ 已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰,观点力求客观中立。本站旨在免费分享,内容仅供个人学习、研究或参考使用。若引用了第三方作品,版权归原作者所有。如内容涉及您的权益,请联系我们处理。
内容垂直聚焦
专注技术核心技术栏目,确保每篇文章深度聚焦于实用技能。从代码技巧到架构设计,为用户提供无干扰的纯技术知识沉淀,精准满足专业提升需求。
知识结构清晰
覆盖从开发到部署的全链路。AI、前端、编程、数据库、服务器、建站、系统层层递进,构建清晰学习路径,帮助用户系统化掌握开发与运维所需的核心技术。
深度技术解析
拒绝泛泛而谈,深入技术细节与实践难点。无论是数据库优化还是服务器配置,均结合真实场景与代码示例进行剖析,致力于提供可直接应用于工作的解决方案。
专业领域覆盖
精准对应开发生命周期。从前端界面到后端编程,从数据库操作到服务器运维,形成完整闭环,一站式满足全栈工程师和运维人员的技术需求。
即学即用高效
内容强调实操性,步骤清晰、代码完整。用户可根据教程直接复现和应用于自身项目,显著缩短从学习到实践的距离,快速解决开发中的具体问题。
持续更新保障
专注既定技术方向进行长期、稳定的内容输出。确保各栏目技术文章持续更新迭代,紧跟主流技术发展趋势,为用户提供经久不衰的学习价值。