代码
import re

text = "今天我玩了英雄联盟的很多英雄,比如“德玛西亚”、“德玛西亚皇子”、“德邦总管”等等,我玩了穿越火线的许多枪,比如“巴雷特”、“马来剑”等等。"
pattern = r"比如[\“]([\u4e00-\u9fa5])+[\”](、[\“]([\u4e00-\u9fa5])+[\”])*"
res = re.finditer(pattern, text)
print(res)
for span in res:
origin_text = span.group()
print(origin_text)
start = text.index(origin_text)
match_text = re.sub("比如|\“|\”","",origin_text).split("、")
for wg in match_text:
cur_start = origin_text.index(wg)
abs_start = start + cur_start
abs_end = abs_start + len(wg)
print(wg, abs_start, abs_end)
结果
<callable_iterator object at 0x000002787DEB3C50> 比如“德玛西亚”、“德玛西亚皇子”、“德邦总管” 德玛西亚 18 22 德玛西亚皇子 25 31 德邦总管 34 38 比如“巴雷特”、“马来剑” 巴雷特 57 60 马来剑 63 66