半结构化数据因为格式灵活、不需要提前定义固定 schema,在很多业务场景中都被广泛使用,而JSON是最常见的半结构化数据格式。很多开发者会疑惑SQL语言的JSON函数怎样处理半结构化数据,以及在NoSQL混合环境下有没有可行的解决方案。下面我们就结合实际案例来详细说明。

SQL中JSON函数处理半结构化数据的基础能力
现在主流的关系型数据库比如MySQL、PostgreSQL、SQL Server都内置了丰富的JSON函数,能够直接对存储为JSON格式的数据做各类操作,不需要先把数据解析成关系型表的行和列。
常见的JSON函数类型
- 解析类函数:用来提取JSON中的字段值,比如MySQL的
JSON_EXTRACT(),PostgreSQL的->>操作符 - 修改类函数:用来更新、插入、删除JSON中的字段,比如MySQL的
JSON_SET()、JSON_REMOVE() - 判断类函数:用来检查JSON中是否存在某个字段,或者判断数据类型,比如MySQL的
JSON_CONTAINS() - 转换类函数:用来把JSON数据转换成关系型的行和列,方便做关联查询,比如MySQL的
JSON_TABLE()
实操案例:用SQL JSON函数处理JSON格式的用户数据
假设我们有一张用户表user_info,其中ext_info字段存储的是JSON格式的扩展信息,包含用户的兴趣标签、收货地址等半结构化数据。
表结构定义
CREATE TABLE user_info (
id INT PRIMARY KEY AUTO_INCREMENT,
user_name VARCHAR(50) NOT NULL,
ext_info JSON COMMENT '用户扩展信息,JSON格式'
);插入测试数据
INSERT INTO user_info (user_name, ext_info) VALUES
('张三', '{"hobby": ["篮球", "阅读"], "address": {"city": "北京", "district": "海淀区"}, "age": 25}'),
('李四', '{"hobby": ["足球"], "address": {"city": "上海", "district": "浦东新区"}, "age": 28}'),
('王五', '{"hobby": ["绘画", "音乐"], "address": {"city": "广州", "district": "天河区"}, "age": 22}');提取JSON中的字段值
如果要查询所有用户的姓名和所在城市,可以用JSON_EXTRACT()函数提取ext_info中的address.city字段:
SELECT
user_name,
JSON_EXTRACT(ext_info, '$.address.city') AS city
FROM user_info;也可以用更简洁的->>操作符,效果和上面的函数一致,还会自动去掉结果中的引号:
SELECT
user_name,
ext_info->>'$.address.city' AS city
FROM user_info;筛选包含特定标签的用户
如果要查询所有兴趣包含篮球的用户,可以用JSON_CONTAINS()函数:
SELECT
user_name,
ext_info->>'$.hobby' AS hobby
FROM user_info
WHERE JSON_CONTAINS(ext_info->'$.hobby', '"篮球"');将JSON数据转换为关系型行
如果要把用户的兴趣标签拆成多行,每个标签对应一条记录,可以用JSON_TABLE()函数:
SELECT
u.user_name,
jt.hobby_item
FROM user_info u
CROSS JOIN JSON_TABLE(
u.ext_info,
'$.hobby[*]' COLUMNS (
hobby_item VARCHAR(20) PATH '$'
)
) AS jt;SQL JSON函数在NoSQL混合环境中的解决方案
在NoSQL混合环境中,通常会同时存在关系型数据库和NoSQL数据库,比如MongoDB、Redis,这时候SQL的JSON函数可以起到很好的桥梁作用。
场景1:关系型数据库同步NoSQL的JSON数据
很多时候NoSQL存储的是半结构化的JSON数据,需要同步到关系型数据库做统计分析。这时候不需要提前定义好所有字段的表结构,只需要把JSON数据存到关系型表的JSON字段中,用SQL的JSON函数直接做查询分析,既保留了NoSQL的灵活性,又能用SQL做复杂查询。
场景2:跨数据源联合查询
如果NoSQL的数据可以通过接口导出为JSON格式,或者关系型数据库支持外部表映射JSON文件,就可以用SQL的JSON函数把NoSQL的JSON数据和关系型表的结构化数据做关联查询,不需要做复杂的数据迁移。
场景3:统一数据处理逻辑
对于同时存储在关系型数据库和NoSQL中的半结构化数据,用SQL的JSON函数可以统一处理逻辑,开发只需要掌握一套SQL语法,不需要分别学习不同NoSQL的查询语法,降低开发和维护成本。
注意事项
- 不同数据库的JSON函数语法略有差异,使用的时候需要参考对应数据库的官方文档
- 如果JSON字段经常需要做查询,可以给JSON中的常用字段创建函数索引,提升查询效率
- 不要过度使用JSON字段,如果数据的结构非常固定,还是建议用传统的关系型字段存储,查询效率更高
合理使用SQL的JSON函数,能够在保留半结构化数据灵活性的同时,充分发挥SQL查询的优势,是处理NoSQL混合环境下半结构化数据的高效方案。