python 爬虫有 scrapy 框架, java 或者 scala 写的爬虫有什么框架?

2015-03-15 23:21:04 +08:00
 professorz

其实还有一方面,想知道java爬虫相对于Python爬虫有什么优势吗,Python的爬虫那么容易入门,开发那么方便。。。
(我发到这个版是因为觉得java版关注爬虫的应该没有这个版多)

10144 次点击
所在节点    Python
10 条回复
xiaocsl
2015-03-16 02:58:48 +08:00
http://jsoup.org/
HTML解析器
从它开始的我第一个java爬虫
xxer
2015-03-16 09:05:04 +08:00
我感觉你弄颠倒了,爬虫最厉害的还是java
FeiMa
2015-03-16 09:13:29 +08:00
Nutch 这个是 Java 的。多了解一下。
zhfish
2015-03-16 10:58:47 +08:00
jsoup超帅
xuyankang
2015-03-16 12:18:06 +08:00
WebMagic是我实习公司的一位同事做的,用起来还不错。
shoumu
2015-03-16 12:20:59 +08:00
ZOwl
2015-03-16 15:05:35 +08:00
看规模吧,大规模的话就要考虑语言的运行时效率等因素了,这个时候开发效率不一定有那么重要
hadesqiao
2015-03-16 15:15:48 +08:00
mark
doushini
2015-03-16 23:10:31 +08:00
httpclient+htmlparser
professorz
2015-04-19 00:29:32 +08:00
@xuyankang 一个月前我看到你的回答没重视到,今天偶然Google进了这个webmagic的项目页面,看了一天没停下来,觉得将近浪费了一个月5555.
如果可以的话,转告你同事他做的太棒了。
顺道感谢Google,感谢github。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/177131

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX