使用 beautifulsoup 解析网页非常的慢，有什么同类产品可以替代么？

另如果单纯用正则匹配的话，效率如何？

for4

2014-04-28 13:40:01 +08:00

halfcrazy

2014-04-28 13:49:25 +08:00

@for4 如果性能能相差十倍，确实很诱人，这就试试去

Ever

2014-04-28 13:56:30 +08:00

@halfcrazy 美丽汤指定第二个参数为lxml就能走lxml parser, 不用重写。

halfcrazy

2014-04-28 13:56:57 +08:00

@qonco jsoup是java的啊，另我的意思是只用正则来解析网页提取内容。

halfcrazy

2014-04-28 14:02:15 +08:00

@Ever 是这样么？ soup = BeautifulSoup(page,"lxml")

halfcrazy

2014-04-28 14:09:41 +08:00

@Ever 用了这个lxml’s HTML parser效果似乎不是很明显啊

bilipan

2014-04-28 15:48:20 +08:00

pyquery可以试下，语法跟jquery类似

binux

2014-04-28 15:51:04 +08:00

正则比xml建树快得多，直接用xpath，比soup，pyquery快。
即便如此，lxml单进程每秒30个页面还是没问题的。加大并发就好了。

flyer103

2014-04-28 16:31:33 +08:00

@binux 想问下 “lxml单进程每秒30个页面还是没问题的” 是如何测出来的，平均获取单个页面中的数据条目有多少？

binux

2014-04-28 16:35:01 +08:00

@flyer103 timeit，每个页面80条xpath规则

andyhu

2014-04-28 16:44:22 +08:00

可以不用python吗？nodejs+cheerio非常爽，完全jquery的语法解析，速度也很快

187j3x1

2014-04-28 17:46:35 +08:00

匹配一堆相同内容正则舒服很多能正则就正则

tomnee

2014-04-28 18:38:45 +08:00

pyquery, 套的lxml, 性能比bs好，用起来比较简单。

walleL

2014-04-28 19:38:57 +08:00

不知道大家有没有注意过这个功能，很赞啊

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.