在全球化应用开发中,多语言文本处理是常见需求,其中词语计数功能看似简单,却因为不同语言的语法规则差异存在不少实现难点。传统的前端文本计数往往依赖空格分割字符串,这种方式仅适用于英文等以空格分隔词语的语言,面对中文、日文、泰文等没有显式词语分隔符的语言时,会出现计数结果完全错误的问题。Intl.Segmenter作为ECMAScript 2022正式纳入标准的原生国际化API,能够按照指定语言的语法规则对文本进行精准的片段划分,完美解决了多语言词语计数的痛点。

传统词语计数的局限性
在没有Intl.Segmenter之前,开发者处理词语计数通常会采用以下几种方式,但这些方式都存在明显的缺陷:
- 按空格分割:仅能适配英文等空格分隔语言,中文、日文文本分割后结果完全不符合预期
- 正则匹配:需要针对不同语言编写大量规则,维护成本高,且无法覆盖所有边缘场景
- 第三方分词库:体积较大,增加项目打包体积,且部分库对低版本浏览器兼容性差
Intl.Segmenter基本用法
Intl.Segmenter是Intl对象下的一个构造函数,用于创建能够根据指定语言规则分割文本的对象。它的基本语法如下:
// 创建Intl.Segmenter实例
// 第一个参数是语言标签,比如zh-CN表示简体中文,en-US表示美式英文
// 第二个参数是可选的配置项,granularity表示分割粒度,可选值为grapheme(字素)、word(词语)、sentence(句子)
const segmenter = new Intl.Segmenter('zh-CN', { granularity: 'word' });
创建实例后,调用实例的segment方法传入待处理文本,会返回一个可迭代的分割结果对象,每个结果项包含分割出的片段内容、索引位置等信息:
const text = '今天天气很好,适合出去散步';
const segments = segmenter.segment(text);
// 遍历分割结果
for (const segment of segments) {
console.log(segment);
}
// 输出结果类似:
// { segment: '今天', index: 0, input: '今天天气很好,适合出去散步', isWordLike: true }
// { segment: '天气', index: 2, input: '今天天气很好,适合出去散步', isWordLike: true }
// { segment: '很', index: 4, input: '今天天气很好,适合出去散步', isWordLike: true }
// { segment: '好', index: 5, input: '今天天气很好,适合出去散步', isWordLike: true }
// { segment: ',', index: 6, input: '今天天气很好,适合出去散步', isWordLike: false }
// ... 后续片段
其中isWordLike属性表示该片段是否像词语,标点符号、空格等内容的isWordLike为false,词语、数字等内容为true,这个属性在计数时非常有用。
多语言文本词语计数实现
基于Intl.Segmenter的分割结果,我们可以很方便地实现多语言文本的词语计数,核心逻辑是过滤掉非词语的片段,统计剩余片段的数量。以下是完整的实现代码:
/**
* 多语言文本词语计数函数
* @param {string} text - 待计数的文本
* @param {string} locale - 语言标签,默认值为浏览器的默认语言
* @returns {number} 词语数量
*/
function countWords(text, locale = undefined) {
// 创建词语粒度的分割器,若未传入locale则使用运行时默认语言
const segmenter = new Intl.Segmenter(locale, { granularity: 'word' });
// 分割文本并转为数组
const segments = Array.from(segmenter.segment(text));
// 过滤出isWordLike为true的片段,统计数量
const wordCount = segments.filter(item => item.isWordLike).length;
return wordCount;
}
// 测试不同语言的文本
const chineseText = 'JavaScript是一种高级编程语言';
const englishText = 'JavaScript is a high-level programming language';
const japaneseText = 'JavaScriptは高水準のプログラミング言語です';
console.log(`中文文本词语数:${countWords(chineseText, 'zh-CN')}`); // 输出:8
console.log(`英文文本词语数:${countWords(englishText, 'en-US')}`); // 输出:6
console.log(`日文文本词语数:${countWords(japaneseText, 'ja-JP')}`); // 输出:6
注意事项
使用Intl.Segmenter时需要注意以下几点:
- 兼容性:该API是ECMAScript 2022新增特性,Chrome 106+、Firefox 117+、Safari 16.4+等现代浏览器支持,旧版本浏览器需要引入polyfill
- 语言标签:传入的语言标签需要符合BCP 47规范,若传入不支持的语言标签,会使用运行时默认语言的规则进行分割
- 分割粒度:除了word粒度,还可以选择grapheme(按字素分割,适合统计字符数)、sentence(按句子分割,适合统计句子数),可根据需求调整配置
总结
Intl.Segmenter为前端多语言文本处理提供了原生的、轻量的解决方案,相比传统方式,它不需要引入额外的库,能够精准适配不同语言的语法规则,非常适合实现多语言场景下的词语计数、文本分析等功能。开发者在使用时只需要根据目标语言创建对应的分割器实例,就可以快速得到准确的分割结果,大幅降低了多语言文本处理的开发成本。
Intl_SegmenterJavaScript多语言文本词语计数修改时间:2026-06-27 07:24:26