如何优雅的实现正则提取

比如我要去百度首页的title，这是目前的写法

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# Created on 2015/4/12

import re
import requests

title_re=re.compile(r'<title>(.*?)</title>')
r=requests.get('http://www.baidu.com')
title=title_re.search(r.content).group(1)
print title

有没有更优雅的正则实现方式？

title

import

utf

14 replies • 2015-04-12 21:16:36 +08:00

Septembers

Apr 12, 2015 via Android

re.search(r'<title>(.*?)</title>', r.content)

leyle

Apr 12, 2015

我喜欢使用 findall()

hahastudio

Apr 12, 2015

beautifulsoup？
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
或者 lxml？
http://docs.python-guide.org/en/latest/scenarios/scrape/

gyorou

Apr 12, 2015

or why not mechanize
http://wwwsearch.sourceforge.net/mechanize/

046569

Apr 12, 2015

解析HTML结构,而不是使用正则提取.

mornlight

Apr 12, 2015

零宽断言：
(?<=\<title\>)[\s\S]*?(?=\</title\>)

wdhwg001

Apr 12, 2015 via iPhone

@mornlight 不能这样判断，你还要判断title里有没有属性。
另外title是少数几个可以用正则处理的html标签，因为它没有嵌套，而正文是不可能用正则的，除非使用平衡组（js等的正则不支持平衡组，而C#支持）…

ghovik

Apr 12, 2015

这个文风的标题不应该出现在知乎上麽~~

silvernoo

Apr 12, 2015

为什么不用XPath

ETiV

Apr 12, 2015

这问题就好比:

如何优雅的直接用手去擦屁股

frankzeng

Apr 12, 2015 via Android

干嘛用正则表达式？费力又不讨好，像楼上说的用手擦砒屁股，什么姿势都恶心

mengzhuo

Apr 12, 2015

同意@ETiV
不过文艺点的说法是：
结构化文档请用解析器

dingyaguang117

Apr 12, 2015

xpath +1

jimmy66

Apr 12, 2015

title=re.search(r'<title>(.*)</title>',r).group(1)
可以一句话写完的，短即优雅。
正文用正则也不是不可能，用跨行正则取出对应的代码段，然后<.*?>replace掉标签就可以了
当然这么做很蛋疼，还是推荐用 lxml，pyquery ，beautiful soup 这种，用熟了，用于xml解析也会有很大帮助
最后求不用知乎体....