终于用正则表达式一步完美处理了Json数据里的存在单引号/双引号导致解析失败的报错,这样无论什么开发语言,都可以搞定这个问题了。

事故原因是最近我有一段json数据需要处理,但是在处理时发生了报错:

Newtonsoft.Json.JsonReaderException: After parsing a value an unexpected character was encountered: 直. Path '[0].Value', line 1, position 33.

我的json数据原文如下:

[{"Name":"封装/尺寸","Value":"0.330" 直径 X 0.925" 长(8.38MM X 23.50MM)"},{"Name":"直径","Value":"Φ8.38MM"},{"Name":"阻值","Value":"0.015OHMS"},{"Name":"长度","Value":"23.50MM"},{"Name":"精度","Value":"±1%"},{"Name":"系列","Value":"LVR"},{"Name":"功率","Value":"5W"},{"Name":"工作温度","Value":"-65°C ~ 275°C"}]

可以看到,我标红色的双引号",其实是数据来着,影响了我的json解析,导致解析失败。

那这个双引号其实是数据,该怎么处理呢?

把 双引号(")变成斜杠双引号(\")之后就可以正常解析了。

可以正常解析的json数据应该是这样的:

[{"Name":"封装/尺寸","Value":"0.330\" 直径 X 0.925\" 长(8.38MM X 23.50MM)"},{"Name":"直径","Value":"Φ8.38MM"},{"Name":"阻值","Value":"0.015OHMS"},{"Name":"长度","Value":"23.50MM"},{"Name":"精度","Value":"±1%"},{"Name":"系列","Value":"LVR"},{"Name":"功率","Value":"5W"},{"Name":"工作温度","Value":"-65°C ~ 275°C"}]

那么怎么找出来这个特殊的双引号呢?

我这边就尝试用正则找出它来。

我先尝试获取格式里后面的引号:

java json 不带引号处理 json里面有引号_json

  再尝试获取格式里后面的引号:

java json 不带引号处理 json里面有引号_json_02

 可以看到两个正则都不会将内容里的双引号拿到。

然后同时取格式里前后的引号:

java json 不带引号处理 json里面有引号_json数据_03

可以看到很完美地取到了,并且忽略了内容里的双引号。

此处已经拿到了格式里的引号,直接用以下步骤,就可以替换完成了:

先把格式里的替换成特殊符号:

((?<=({|:|,))("))|(")(?=(}|:|,))   ==替换==>  ★

然后把数据里的替换成加引号的:

"  ==替换==>  \"

把格式里的替换成回来:

★ ==替换==> "

就完成了!

有没有更简单的办法呢?

肯定有的,需要用到排除法:

排除格式里前面的引号:

java json 不带引号处理 json里面有引号_双引号_04

排除格式里后面的引号:

java json 不带引号处理 json里面有引号_数据_05

可以!

把两者结合起来:

java json 不带引号处理 json里面有引号_数据_06

 拿到数据里的双引号!

好,现在就可以替换,一步到位:

(?<=([^{:,]))(")(?=([^}:,]))  ==替换==>  \"

 完美加上:

java json 不带引号处理 json里面有引号_双引号_07


 如果格式里是单引号,同理可以这样找到:

java json 不带引号处理 json里面有引号_json_08

 一步替换:

(?<=([^{:,]))(')(?=([^}:,]))  ==替换==>  \'

java json 不带引号处理 json里面有引号_数据_09

 完美!

这个时候,无论你用什么语言,都可以使用这个正则表达式一步替换,对有这样异常的数据进行修正了。

当然,现实中还有其他的各种特殊情况,复杂多变,肉眼可见的格式错乱,但是程序不一定能100%解决。有其他特殊情况,欢迎在评论区留言沟通。

---------------------------------------

补充:

如果引号附近有空格,可以这样修改:

(?<!(\s*[{:,]\s*))(\")(?!(\s*[}:,]\s*))  ==替换==>  \"