V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 3796 days ago, the information mentioned may be changed or developed.

pattern = re.compile('<div.?author.?title="(.*?)"',re.S)

pattern = re.compile('<div.?class="content">(.?)</div>',re.S)

pattern = re.compile('<i.?class="number">(.?)</i>',re.S)

以上注释的正常出结果
pattern = re.compile('<div.*?author.*?title="(.*?)".*?<div.*?class=".*?<div.*?class="content">(.?)</div>.?<i.*?class="number">(.*?)</i>',re.S)
三个合起来的不出结果，不知是什么问题
后面试着改了几次，结果有几次输出八进制
这是写的爬糗百的。。，求指点

15 replies • 2015-12-06 01:36:01 +08:00

halfcrazy

Dec 5, 2015

用 bs 可以方便些
https://github.com/halfcrazy/qiushibaike_crawler/blob/master/qiushibaike.py

HeyDMCreally

Dec 5, 2015

@halfcrazy 谢谢不过问题纠结了很久想知道是哪里表达错了

halfcrazy

Dec 5, 2015

@halfcrazy 方便把要匹配的字串贴出来么

HeyDMCreally

Dec 5, 2015

@halfcrazy 谢谢 https://github.com/DMCJasonSG/PythonLearning/blob/master/Spider/qiubai0.2.py

iEverX

Dec 5, 2015

@HeyDMCreally 发一个你要匹配的字符串，就是你程序里面的 content

lecher

Dec 5, 2015

我也犯过类似的错误，正则尽量不要用(.*)这样会导致最长匹配，结果就是本意是匹配一串列表的最终匹配出一大段 html 代码。

如果用正则，最好拆分一下，比如要匹配<div class="style1">一大段列表<li></li></div>就先用正则把这个 div 的内容取出来，再对里面的内容进行正则处理。

iyaozhen

Dec 5, 2015

跨行匹配的问题？

.*? -> [/s/S]*?

HeyDMCreally

Dec 5, 2015

@iEverX 新鲜的 content https://github.com/DMCJasonSG/PythonLearning/blob/master/Spider/content

bdbai

Dec 5, 2015 via iPhone

@lecher .*? 大法好

Victor215

Dec 6, 2015 via Android

这东西分开还能看明白合起来完全不知道是什么鬼，就算你改好了放一段时间回来看我相信你肯定也是看不懂的能简单的分开的就不要合并起来我觉得能多匹配几次匹配出来就行

popok

Dec 6, 2015

@HeyDMCreally 根据你 8 楼的内容，写的。
title="(.*)">\s<h2>.*</h2>\s</a>\s</div>\s+<div class="content">\s+(.*)\s+\s+</div>\s+<div class="stats">\s+<span class="stats-vote"><i class="number">(\d+)</i

popok

Dec 6, 2015

能分开匹配还是分开比较好点
我的方法是，先 content 写入测试工具，然后把需要匹配那段复制出来，写到正则那栏，然后把其中变化的部分都用正则表示，然后换行都改成\s+，然后就能用了。

当然这种都是傻瓜方法，根本不谈性能

HeyDMCreally

Dec 6, 2015

@popok 谢谢

imn1

Dec 6, 2015

python 的正则不知道是 BUG 还是特殊，当多个不确定子匹配（如.*此类涵盖全部的方式），往往得到的结果为空或不可预想
试过相同的正则在 php 获得结果，但 py 就不行
所以应该尽可能使用可确定的匹配，例如 [^"]+ 或者 [^<]+ 等写法

vmebeh

Dec 6, 2015

<div\sclass\="author.+?title="(.+?)">.+?<div\sclass\="content">(.+?)</div>.+?class\="number">(\d+)</i>

把你的改了一下可用
<div.*?author.*?title="(.*?)".*?<div.*?class="content">(.+?)</div>.+?<i.*?class="number">(.*?)</i>

Python 写爬虫，正则式匹配总是有问题求解答

pattern = re.compile('<div.?author.?title="(.*?)"',re.S)

pattern = re.compile('<div.*?class="content">(.*?)</div>',re.S)

pattern = re.compile('<i.*?class="number">(.*?)</i>',re.S)

pattern = re.compile('<div.?class="content">(.?)</div>',re.S)

pattern = re.compile('<i.?class="number">(.?)</i>',re.S)