C++如何实现UTF-8与GBK编码的相互转换

来源:IT编程作者:樱由罗头衔:网络博主
导读:本期聚焦于小伙伴创作的《C++如何实现UTF-8与GBK编码的相互转换》,敬请观看详情,探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《C++如何实现UTF-8与GBK编码的相互转换》有用,将其分享出去将是对创作者最好的鼓励。

在Windows平台的C++开发中,UTF-8和GBK是两种非常常见的字符编码格式,前者多用于跨平台场景和网络传输,后者是Windows系统默认的本地编码之一,二者之间的转换需求十分普遍。借助Windows提供的代码页转换接口,可以快速实现两种编码的相互转换,不需要手动维护复杂的编码映射表。

C++如何实现UTF-8与GBK编码的相互转换

核心转换接口说明

Windows系统提供了MultiByteToWideCharWideCharToMultiByte两个核心函数,用于不同代码页之间的字符转换,这两个函数都定义在Windows.h头文件中。

  • MultiByteToWideChar:将多字节字符串(如UTF-8、GBK)转换为宽字符字符串(UTF-16)
  • WideCharToMultiByte:将宽字符字符串(UTF-16)转换为指定代码页的多字节字符串

UTF-8对应的代码页是CP_UTF8,GBK对应的代码页是936,这两个常量是实现转换的关键参数。

UTF-8转GBK实现步骤

转换流程分为两步:首先将UTF-8字符串转换为UTF-16宽字符,再将UTF-16宽字符转换为GBK编码的多字节字符串。

第一步:UTF-8转UTF-16

先调用MultiByteToWideChar计算需要的宽字符缓冲区大小,再分配内存完成转换。

第二步:UTF-16转GBK

调用WideCharToMultiByte,指定目标代码页为936,将宽字符转换为GBK编码的字符串。

完整代码示例如下:

#include <Windows.h>
#include <string>
#include <vector>

// UTF-8转GBK
std::string UTF8ToGBK(const std::string& utf8Str) {
    // 第一步:UTF-8转UTF-16
    int wideLen = MultiByteToWideChar(CP_UTF8, 0, utf8Str.c_str(), -1, nullptr, 0);
    if (wideLen <= 0) {
        return "";
    }
    std::vector<wchar_t> wideBuf(wideLen);
    MultiByteToWideChar(CP_UTF8, 0, utf8Str.c_str(), -1, wideBuf.data(), wideLen);

    // 第二步:UTF-16转GBK
    int gbkLen = WideCharToMultiByte(936, 0, wideBuf.data(), -1, nullptr, 0, nullptr, nullptr);
    if (gbkLen <= 0) {
        return "";
    }
    std::vector<char> gbkBuf(gbkLen);
    WideCharToMultiByte(936, 0, wideBuf.data(), -1, gbkBuf.data(), gbkLen, nullptr, nullptr);

    return std::string(gbkBuf.data());
}

GBK转UTF-8实现步骤

GBK转UTF-8是上述流程的逆过程,先将GBK转换为UTF-16,再将UTF-16转换为UTF-8。

完整代码示例如下:

#include <Windows.h>
#include <string>
#include <vector>

// GBK转UTF-8
std::string GBKToUTF8(const std::string& gbkStr) {
    // 第一步:GBK转UTF-16
    int wideLen = MultiByteToWideChar(936, 0, gbkStr.c_str(), -1, nullptr, 0);
    if (wideLen <= 0) {
        return "";
    }
    std::vector<wchar_t> wideBuf(wideLen);
    MultiByteToWideChar(936, 0, gbkStr.c_str(), -1, wideBuf.data(), wideLen);

    // 第二步:UTF-16转UTF-8
    int utf8Len = WideCharToMultiByte(CP_UTF8, 0, wideBuf.data(), -1, nullptr, 0, nullptr, nullptr);
    if (utf8Len <= 0) {
        return "";
    }
    std::vector<char> utf8Buf(utf8Len);
    WideCharToMultiByte(CP_UTF8, 0, wideBuf.data(), -1, utf8Buf.data(), utf8Len, nullptr, nullptr);

    return std::string(utf8Buf.data());
}

转换注意事项

  • 转换前需要检查输入字符串是否为空,避免无效转换
  • 代码页参数不要写错,CP_UTF8对应65001,GBK对应936,错误的代码页会导致转换结果乱码
  • 如果转换失败,两个函数都会返回0,可以通过GetLastError获取具体的错误原因
  • 宽字符缓冲区的大小计算需要包含字符串结束符,所以传入-1作为源字符串长度时,计算出的长度已经包含结束符位置

测试示例

可以编写简单的测试代码验证转换效果:

#include <iostream>

int main() {
    // 测试UTF-8转GBK
    std::string utf8Str = u8"测试编码转换";
    std::string gbkStr = UTF8ToGBK(utf8Str);
    std::cout << "UTF-8转GBK结果长度:" << gbkStr.length() << std::endl;

    // 测试GBK转UTF-8
    std::string backUtf8 = GBKToUTF8(gbkStr);
    std::cout << "GBK转回UTF-8是否一致:" << (backUtf8 == utf8Str ? "是" : "否") << std::endl;
    return 0;
}

上述代码在Windows平台下编译运行后,可以正确完成两种编码的相互转换,转换后的字符串内容保持一致。

C++UTF-8GBK代码页转换Windows_API修改时间:2026-07-05 02:45:24

免责声明:​ 已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰,观点力求客观中立。本站旨在免费分享,内容仅供个人学习、研究或参考使用。若引用了第三方作品,版权归原作者所有。如内容涉及您的权益,请联系我们处理。
内容垂直聚焦
专注技术核心技术栏目,确保每篇文章深度聚焦于实用技能。从代码技巧到架构设计,为用户提供无干扰的纯技术知识沉淀,精准满足专业提升需求。
知识结构清晰
覆盖从开发到部署的全链路。AI、前端、编程、数据库、服务器、建站、系统层层递进,构建清晰学习路径,帮助用户系统化掌握开发与运维所需的核心技术。
深度技术解析
拒绝泛泛而谈,深入技术细节与实践难点。无论是数据库优化还是服务器配置,均结合真实场景与代码示例进行剖析,致力于提供可直接应用于工作的解决方案。
专业领域覆盖
精准对应开发生命周期。从前端界面到后端编程,从数据库操作到服务器运维,形成完整闭环,一站式满足全栈工程师和运维人员的技术需求。
即学即用高效
内容强调实操性,步骤清晰、代码完整。用户可根据教程直接复现和应用于自身项目,显著缩短从学习到实践的距离,快速解决开发中的具体问题。
持续更新保障
专注既定技术方向进行长期、稳定的内容输出。确保各栏目技术文章持续更新迭代,紧跟主流技术发展趋势,为用户提供经久不衰的学习价值。