有没有办法从 Google cached 中把一个站点的页面 down 下来?

2013-05-21 08:36:11 +08:00
 rrfeng
比如一个已经撤掉的页面,没有办法直接访问了,可以搜索
关键字 site:xxx.yyy.com
可以下载到缓存的版本。

实际的需求是,我不知道到这些页面里有什么关键字,而且要批量的 down 下来。
2544 次点击
所在节点    问与答
7 条回复
alexrezit
2013-05-21 08:38:42 +08:00
试试 archive.org 呢?
muzuiget
2013-05-21 09:22:32 +08:00
如果是博客类的站点,找它的 feed,然后在 Google Reaqder 里扒出来

http://www.google.com/reader/atom/feed/${feed_url}?n=9999

不然得话就得自己用 Python 之类的语言自己写个爬虫了,把快照页面里的链接一个个再替换成快照地址,一直递归下去。

如果不是下载仅是浏览的话,我已经写过一个油猴脚本了

http://userscripts.org/scripts/show/40822
rrfeng
2013-05-21 10:05:42 +08:00
@muzuiget
之前找了半天 takeout 里没有导出文章内容的选项,原来这样啊~

还有一个问题,假如我订阅 rss 的时候,某篇文章已经被删除了,GR 也不会有这篇文章的吧?
csx163
2013-05-21 10:21:06 +08:00
@rrfeng 被删了也有这篇文章的
rrfeng
2013-05-21 10:39:19 +08:00
@muzuiget
one more question
这个链接导出来的是 GR 专有的 xml 格式么?有没有简单的办法还原成视觉友好的页面?

所谓简单就是 比如加个<rss></rss>标签,chrome 就可以解析了这种

没有就只能自己写程序转一下了。。。

====================
看来真的是很特别的xml
muzuiget
2013-05-21 13:50:36 +08:00
@rrfeng GR 的那个地址也是一个标准的 feed,相当于备份 + 合烧。
rrfeng
2013-05-21 14:21:41 +08:00
@muzuiget
准备拿python练手,把它转成html了。
不过还是不全呢,blog有200+,GR 里只有不到100文章

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/69599

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX