想了一个多小时，求个{正则}大神看看如何正则出下面 json 里的数据。

jin6220

2017-01-14 23:07:37 +08:00

for title in titles:
print(title)
别人上传的代码怎么那么结构清晰啊 =，=

zhjits

2017-01-14 23:09:20 +08:00

直接读 JSON 转成的 dict 不行么

decken

2017-01-14 23:11:52 +08:00

用 json.loads 反序列化出对象，再 get 一下就 ok 了

golmic

2017-01-14 23:12:00 +08:00

url":"[^"]+

privil

2017-01-14 23:12:02 +08:00

@jin6220 别人用 md 格式了呗，楼上正解， json 搞出来的事 dict ，打印字典指定值被

cdwyd

2017-01-14 23:12:13 +08:00

re.compile('article/(\d+)/')

fy

2017-01-14 23:13:38 +08:00

这需求不要用正则，本身例外多早晚出事。直接 json 解轻松愉快。

jin6220

2017-01-14 23:13:55 +08:00

@zhjits 是已经转换成 dict 了但是现在正则已经弄出一半数据了。。。

Yinz

2017-01-14 23:18:44 +08:00

如果不要求一定用正则的话， json 直接读成 dict 就好了，如 3 、 5 楼所说

j2=str(json.loads(j)) #必须转换成字符串才能正则匹配。

titles=re.findall(r"(?<='title_hide':).*?(?=,)",j2,re.M)
print(len(titles))
for title in titles:
print(title)

urls=re.findall(r"'url':(.*?),.?'title'",j2,re.M) #这里不对，不知道如何弄出来了
print(len(urls),urls)

上面这几行改成
j2=json.loads(j)
print(j2.get('title_hide'))
print(j2.get('url'))

应该就没问题的了

Yinz

2017-01-14 23:19:28 +08:00

@jin6220 沉没成本不要算啊，毕竟转 dict 之后简单太多了

jin6220

2017-01-14 23:21:12 +08:00

当初没用字典是嫌麻烦，各种套嵌。看来明天还得再看看正则。

jin6220

2017-01-14 23:23:50 +08:00

======自答下：=========
第一步： a=j2['result'] （这里 j2 就不用字符串话了）
第二部：
>>> for b in a :
print(b.get('title_hide'))

制作一个万花筒，来一场镜花水月的邂逅
让翅膀在指尖上舞动：用铁丝制作在指尖扇动的小机械
来做一个漂亮的鱼标本吧！
低成本打造头戴式立体声蓝牙耳机
自动温调速风扇，让你的电脑更冷静
给你的键盘加上无线 PPT 控制功能吧
给钛挂件镀一层彩色外衣
泥塑入门，做个蒸汽朋克范儿黄金头骨
送妹纸魔方拼图，你也可以
温差发电机：不用电的“智能”风扇
手机？投影机？一个盒子就可兼得！
GEEK 小浪漫：靠在一起就会闪烁的心
制作属于你自己的球形关节人偶
GEEK 厨房之草莓酱，和一坨肉眼可见 DNA
沏一壶苔藓
软木塞变身灰袍甘道夫
自制模具，巧克力形状随便你
情人节，送 Ta 一支彩虹玫瑰！
远程电子点火器，安全烟火必备
化学小实验：居家版“法老之蛇”
>>> for b in a :
print(b.get('url'))

http://www.guokr.com/article/437636/
http://www.guokr.com/article/437297/
http://www.guokr.com/article/437489/
http://www.guokr.com/article/437145/
http://www.guokr.com/article/437064/
http://www.guokr.com/article/437046/
http://www.guokr.com/article/437010/
http://www.guokr.com/article/436762/
http://www.guokr.com/article/436941/
http://www.guokr.com/article/436937/
http://www.guokr.com/article/436912/
http://www.guokr.com/article/436915/
http://www.guokr.com/article/436835/
http://www.guokr.com/article/436799/
http://www.guokr.com/article/436722/
http://www.guokr.com/article/436694/
http://www.guokr.com/article/436679/
http://www.guokr.com/article/436667/
http://www.guokr.com/article/436640/
http://www.guokr.com/article/436644/
>>>

jin6220

2017-01-14 23:28:59 +08:00

@Yinz 嗯你那个结构好像不对但是换成 json 无非就是套嵌 dict 循环下就立马解出了正则不如派森像是人类语言啊啊啊
但是还是很想弄懂正则怎么写毕竟有时候只有正则解决问题很暴力 =，=

lxy

2017-01-15 00:25:13 +08:00

要是有人在工作中有 json 不用非要用正则写一堆“乱码”会被我捏脸的。 4 楼那个就是了，不过漏了空格，稍微严谨一点的写法：
"url"\s*:\s*"(.+?)"\s*,

Allianzcortex

2017-01-15 00:42:13 +08:00

其实我想说的很多时候返回的 JSON 格式顺序是不固定的，调好了这一个正则，下次请求的时候内容就又变了。所以？？？

Yinz

2017-01-15 00:42:20 +08:00

@jin6220 这。。。别循环啊，自己分析下 json 的格式然后逐步 get 就好了，没必要循环找元素吧

jin6220

2017-01-15 07:47:28 +08:00

@Yinz 里头的主体结构类似是：
{ "result": [{"title_hide": ...,，"url": ...},{title_hide:...,url:...}，{title_hide:...,url:...},，{title_hide:...,url:...},其他字典]}
result 的值是一个列表，列表里的字典都是并列结构，不循环可以？

jin6220

2017-01-15 08:37:50 +08:00

wyntergreg

2017-01-15 08:57:55 +08:00

不用 JSON 非要正则，舍近求远？

allenhu

2017-01-15 09:12:48 +08:00

无知者无畏