无聊之作:抓取网页截图

2013-06-04 09:17:12 +08:00
 vibbow
http://vps.vsean.net/screenshot/
输入网址后,稍等一会,就会显示出网页的截图

源代码: https://gist.github.com/vibbow/5702882
基于PHP + Selenium
9939 次点击
所在节点    分享创造
92 条回复
vibbow
2013-06-04 11:59:31 +08:00
@dndx 没法流式啊...
Selenium返回的截图是base64编码的...
choolib
2013-06-04 12:12:53 +08:00
图片上的字体和原网站的字体不一样.
vibbow
2013-06-04 12:58:53 +08:00
@sarices 终于能在抓取你网页内存溢出前正确抛出错误了...
vibbow
2013-06-04 13:01:21 +08:00
不过很好奇为什么json_decode会使用那么大的内存。
在decode前内存使用才30多M,decode的过程居然需要申请大约300M的内存...
11138
2013-06-04 13:09:56 +08:00
关于 2code 所说的问题:
1,把http换成https
2,将用户输入的目标网址用JS加密一下再提交
eYeer
2013-06-04 13:26:24 +08:00
很神奇,弱弱的问一下 其原理是什么?
@vibbow
vibbow
2013-06-04 13:29:07 +08:00
@eYeer 本质就是打开firefox,打开要截图的网站,截张图,输出...
eYeer
2013-06-04 13:33:46 +08:00
这api都有?
@vibbow
vibbow
2013-06-04 13:37:43 +08:00
lichao
2013-06-04 13:39:18 +08:00
@vibbow 看看这个网站的 sidebar title http://demo.libuchao.com/
vibbow
2013-06-04 13:45:19 +08:00
@lichao 我也不知道......
难道Linux下的Firefox有神马特殊...
vibbow
2013-06-04 13:47:30 +08:00
halicando
2013-06-04 14:00:52 +08:00
@kusys @Livid http://archive.org/ 已经有了,输入网址,点'take me back' ,只是链接有时不太稳定。
Livid
2013-06-04 14:05:33 +08:00
@vibbow 每个主题最多可以有 3 个 append。
vibbow
2013-06-04 14:19:22 +08:00
@Livid 不科学...
想继续APPEND怎么办...
fuxkcsdn
2013-06-04 15:14:13 +08:00
@kusys
你是说这网站(可能得翻墙)??
http://archive.org/index.php
mozutaba
2013-06-04 15:16:53 +08:00
楼主的想法和我不摸二哥,不过我的比较邪恶。我现在写的抓中文会乱码,一直不知道怎么解决。借这个一用。搞定后给你参观
fuxkcsdn
2013-06-04 15:19:56 +08:00
@vibbow
可以参考下这网站
http://browsershots.org/
用的是python的,而且可以顺便加入到这个网站的项目中
mozutaba
2013-06-04 15:23:19 +08:00
顺便发现有人截取过毛片网站....
我勒个去,抱歉没看完,既然这样我说完吧,通过获取某些针对性的hosts,对里面的网站截图,生成一个列表来展示这些网站有多么误导人,警示青少年。
LincolnDz
2013-06-04 15:55:14 +08:00
很好玩,不过截图糊了...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/71136

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX