如何用JavaScript的Intl.Segmenter实现多语言文本词语计数

来源：安卓APP网作者：深圳程序员头衔：程序员

导读：本期聚焦于小伙伴创作的《如何用JavaScript的Intl.Segmenter实现多语言文本词语计数》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《如何用JavaScript的Intl.Segmenter实现多语言文本词语计数》有用，将其分享出去将是对创作者最好的鼓励。

在全球化应用开发中，多语言文本处理是常见需求，其中词语计数功能看似简单，却因为不同语言的语法规则差异存在不少实现难点。传统的前端文本计数往往依赖空格分割字符串，这种方式仅适用于英文等以空格分隔词语的语言，面对中文、日文、泰文等没有显式词语分隔符的语言时，会出现计数结果完全错误的问题。Intl.Segmenter作为ECMAScript 2022正式纳入标准的原生国际化API，能够按照指定语言的语法规则对文本进行精准的片段划分，完美解决了多语言词语计数的痛点。

传统词语计数的局限性

在没有Intl.Segmenter之前，开发者处理词语计数通常会采用以下几种方式，但这些方式都存在明显的缺陷：

按空格分割：仅能适配英文等空格分隔语言，中文、日文文本分割后结果完全不符合预期
正则匹配：需要针对不同语言编写大量规则，维护成本高，且无法覆盖所有边缘场景
第三方分词库：体积较大，增加项目打包体积，且部分库对低版本浏览器兼容性差

Intl.Segmenter基本用法

Intl.Segmenter是Intl对象下的一个构造函数，用于创建能够根据指定语言规则分割文本的对象。它的基本语法如下：

// 创建Intl.Segmenter实例
// 第一个参数是语言标签，比如zh-CN表示简体中文，en-US表示美式英文
// 第二个参数是可选的配置项，granularity表示分割粒度，可选值为grapheme（字素）、word（词语）、sentence（句子）
const segmenter = new Intl.Segmenter('zh-CN', { granularity: 'word' });

创建实例后，调用实例的segment方法传入待处理文本，会返回一个可迭代的分割结果对象，每个结果项包含分割出的片段内容、索引位置等信息：

const text = '今天天气很好，适合出去散步';
const segments = segmenter.segment(text);

// 遍历分割结果
for (const segment of segments) {
  console.log(segment);
}
// 输出结果类似：
// { segment: '今天', index: 0, input: '今天天气很好，适合出去散步', isWordLike: true }
// { segment: '天气', index: 2, input: '今天天气很好，适合出去散步', isWordLike: true }
// { segment: '很', index: 4, input: '今天天气很好，适合出去散步', isWordLike: true }
// { segment: '好', index: 5, input: '今天天气很好，适合出去散步', isWordLike: true }
// { segment: '，', index: 6, input: '今天天气很好，适合出去散步', isWordLike: false }
// ... 后续片段

其中isWordLike属性表示该片段是否像词语，标点符号、空格等内容的isWordLike为false，词语、数字等内容为true，这个属性在计数时非常有用。

多语言文本词语计数实现

基于Intl.Segmenter的分割结果，我们可以很方便地实现多语言文本的词语计数，核心逻辑是过滤掉非词语的片段，统计剩余片段的数量。以下是完整的实现代码：

/**
 * 多语言文本词语计数函数
 * @param {string} text - 待计数的文本
 * @param {string} locale - 语言标签，默认值为浏览器的默认语言
 * @returns {number} 词语数量
 */
function countWords(text, locale = undefined) {
  // 创建词语粒度的分割器，若未传入locale则使用运行时默认语言
  const segmenter = new Intl.Segmenter(locale, { granularity: 'word' });
  // 分割文本并转为数组
  const segments = Array.from(segmenter.segment(text));
  // 过滤出isWordLike为true的片段，统计数量
  const wordCount = segments.filter(item => item.isWordLike).length;
  return wordCount;
}

// 测试不同语言的文本
const chineseText = 'JavaScript是一种高级编程语言';
const englishText = 'JavaScript is a high-level programming language';
const japaneseText = 'JavaScriptは高水準のプログラミング言語です';

console.log(`中文文本词语数：${countWords(chineseText, 'zh-CN')}`); // 输出：8
console.log(`英文文本词语数：${countWords(englishText, 'en-US')}`); // 输出：6
console.log(`日文文本词语数：${countWords(japaneseText, 'ja-JP')}`); // 输出：6

注意事项

使用Intl.Segmenter时需要注意以下几点：

兼容性：该API是ECMAScript 2022新增特性，Chrome 106+、Firefox 117+、Safari 16.4+等现代浏览器支持，旧版本浏览器需要引入polyfill
语言标签：传入的语言标签需要符合BCP 47规范，若传入不支持的语言标签，会使用运行时默认语言的规则进行分割
分割粒度：除了word粒度，还可以选择grapheme（按字素分割，适合统计字符数）、sentence（按句子分割，适合统计句子数），可根据需求调整配置

总结

Intl.Segmenter为前端多语言文本处理提供了原生的、轻量的解决方案，相比传统方式，它不需要引入额外的库，能够精准适配不同语言的语法规则，非常适合实现多语言场景下的词语计数、文本分析等功能。开发者在使用时只需要根据目标语言创建对应的分割器实例，就可以快速得到准确的分割结果，大幅降低了多语言文本处理的开发成本。

Intl_Segmenter JavaScript 多语言文本词语计数修改时间：2026-06-27 07:24:26

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。