现在的爬虫还用 Java 吗

2019-03-07 11:03:14 +08:00
 lryepoch
4741 次点击
所在节点    程序员
17 条回复
lhx2008
2019-03-07 11:04:33 +08:00
Java 异步爬虫效率还是不错的,库也比较完善,不过写不是太方便。
gowk
2019-03-07 11:33:11 +08:00
Python 和 Go 写都比 Java 方便,用 Java 写能巨 TM 烦
lihongjie0209
2019-03-07 11:38:46 +08:00
写脚本用脚本语言

写项目用工程语言
letitbesqzr
2019-03-07 11:41:03 +08:00
现在的爬虫,难道还需要去纠结那点本地解析的性能问题?更注重的不应该是 任务调度 异步 网络 方面? 什么语言熟悉你用什么语言,不觉得哪个语言在这方面有什么天生的优势。
julyclyde
2019-03-07 13:03:07 +08:00
“还”?
tikazyq
2019-03-07 13:11:16 +08:00
试试 crawlab,哪个爬虫语言都可以的 http://github.com/tikazyq/crawlab
lryepoch
2019-03-07 14:16:39 +08:00
@julyclyde 因为我觉得现在很多人都是用 python 来爬😂
mooncakejs
2019-03-07 14:18:06 +08:00
爬虫用 java 的不多吧,一般都是 python,现在可能 nodejs 更流行写爬虫。
shiganwuguo
2019-03-07 14:18:56 +08:00
大型爬虫 java, 小爬虫随意
nicevar
2019-03-07 14:23:01 +08:00
公司项目一般用 java 比较多,个人项目功能比较单一,用 python 之类的省事
WaJueJiPrince
2019-03-07 14:27:36 +08:00
@letitbesqzr 有的语言还是有优势的,很少见过有人用 C 或者 VB 直接写爬虫的,不同的语言的出现就是为了弥补其他语言的不足的,所有还是有差距的,不同的语言有不同的优点和缺点。另外,爬虫也不一定就注重的是异步,任务调度,一味追求快速的爬虫不是好的爬虫,也要兼顾对方的负载均衡,稳定性也很重要。另外验证码,js 加密,账号登陆这些不容易追求快速,
hyc5312
2019-03-07 15:09:47 +08:00
py 上手快,写一个简单的爬虫也很快,适合新手上路,实际上写爬虫跟编程语言没有太多的关系,选择自己熟悉的语言都可以,爬虫重心应该在于调度,网络,反爬策略,数据清洗等等问题,本人基于 java 写了个爬虫框架,https://github.com/heyingcai/cetty 欢迎来交流~
juju123
2019-03-07 15:16:27 +08:00
大型分布式爬虫用 java 有优势,但写起来没有 py 顺手。
julyclyde
2019-03-07 20:27:28 +08:00
@lryepoch 对啊都是用 python 啊。几时曾用过 java ?
wmhx
2019-03-08 00:55:43 +08:00
java 写爬虫, 现成的框架就不说了;
手工的, 你可以用 httpclient 抓取,jsoup 解析页面, 90%的页面都能搞定, 剩下的就用 selenium 没跑了;
taaaang
2019-03-08 09:19:04 +08:00
现在还纠结啥语言,会什么就用什么,关键是要把东西给爬下来
UserNameisNull
2019-03-08 09:51:25 +08:00
反正携程是 Java 爬虫

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/542020

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX