有没有能够自动定时抓取某个网站数据的软件或工具?

2014-07-14 10:19:08 +08:00
 bobopu
某个网站有一些数据列表每隔几分钟就会更新一次,但都比较有规律,有没有什么办法能自动抓取这些数据去重后保存为excel格式呢?
5849 次点击
所在节点    程序员
22 条回复
ejin
2014-07-14 10:42:05 +08:00
excel本身就自带这功能啊(vba)
hging
2014-07-14 10:48:12 +08:00
Nokogiri
nagato
2014-07-14 10:53:50 +08:00
@hging 定时的话怎么实现?
wgqzlj
2014-07-14 11:08:31 +08:00
火车头
bobopu
2014-07-14 11:12:31 +08:00
@ejin 这个怎么弄,指教一下。
stevenyou
2014-07-14 11:17:34 +08:00
我用cron tab + beautifulsoup(python) 存成csv
需要执行javascript的话用casperJS
halfcrazy
2014-07-14 11:26:30 +08:00
kimonolabs
hging
2014-07-14 11:26:43 +08:00
@nagato 定时如果是rails的话可以写定时任务。 其他的开源用crontab系统定时跑脚本。
ejin
2014-07-14 11:58:59 +08:00
@bobopu 你有代码基础吗
bobopu
2014-07-14 12:02:57 +08:00
@halfcrazy 这个东西很好很强大啊,一直就想要这种在线的自动抓取工具。
bobopu
2014-07-14 12:03:14 +08:00
@ejin 请讲一下。
ejin
2014-07-14 15:06:41 +08:00
@bobopu 就是vb/asp的语法啊,搭配xmlhttp,采网页数据很容易的
bobopu
2014-07-14 15:58:27 +08:00
@ejin 我捣鼓一下。
lu18887
2014-07-14 18:02:06 +08:00
这种事情最有意思了!
tiiime
2014-07-14 19:10:22 +08:00
bobopu
2014-07-14 22:29:17 +08:00
@halfcrazy 这个有没有什么办法可以将抓取的内容自动保存呢?现在好像是抓取后不断在覆盖。。
yangqi
2014-07-14 22:30:40 +08:00
halfcrazy
2014-07-14 23:27:30 +08:00
@bobopu 你可以在设置的地方设置一下定时抓取,然后你本地也定时抓取并存储就好。输出的格式反正都很好解析的,
bobopu
2014-07-17 15:52:13 +08:00
@halfcrazy 我想用的输出的csv格式,用excel远程调用后也会随着每次的刷新的覆盖之前的数据,有没有什么可以追加保存的办法?
bobopu
2014-07-17 15:53:52 +08:00
@ejin 请问excel从web获取数据后有没有什么办法追加保存呢,目前都是每次刷新覆盖了之前的数据了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/122510

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX