无聊之作：抓取网页截图

http://vps.vsean.net/screenshot/
输入网址后，稍等一会，就会显示出网页的截图

源代码： https://gist.github.com/vibbow/5702882
基于PHP + Selenium

vibbow

2013-06-04 11:59:31 +08:00

@dndx 没法流式啊...
Selenium返回的截图是base64编码的...

choolib

2013-06-04 12:12:53 +08:00

图片上的字体和原网站的字体不一样.

vibbow

2013-06-04 12:58:53 +08:00

@sarices 终于能在抓取你网页内存溢出前正确抛出错误了...

vibbow

2013-06-04 13:01:21 +08:00

不过很好奇为什么json_decode会使用那么大的内存。
在decode前内存使用才30多M，decode的过程居然需要申请大约300M的内存...

11138

2013-06-04 13:09:56 +08:00

关于 2code 所说的问题：
1，把http换成https
2，将用户输入的目标网址用JS加密一下再提交

eYeer

2013-06-04 13:26:24 +08:00

很神奇，弱弱的问一下其原理是什么？
@vibbow

vibbow

2013-06-04 13:29:07 +08:00

@eYeer 本质就是打开firefox，打开要截图的网站，截张图，输出...

lichao

2013-06-04 13:39:18 +08:00

@vibbow 看看这个网站的 sidebar title http://demo.libuchao.com/

vibbow

2013-06-04 13:45:19 +08:00

@lichao 我也不知道......
难道Linux下的Firefox有神马特殊...

vibbow

2013-06-04 13:47:30 +08:00

又无法APPEND了 @livid
http://vsean.net/pic/di-AD1A.png

halicando

2013-06-04 14:00:52 +08:00

@kusys @Livid http://archive.org/ 已经有了，输入网址，点'take me back' ，只是链接有时不太稳定。

Livid

2013-06-04 14:05:33 +08:00

@vibbow 每个主题最多可以有 3 个 append。

vibbow

2013-06-04 14:19:22 +08:00

@Livid 不科学...
想继续APPEND怎么办...

fuxkcsdn

2013-06-04 15:14:13 +08:00

@kusys
你是说这网站(可能得翻墙)？？
http://archive.org/index.php

mozutaba

2013-06-04 15:16:53 +08:00

楼主的想法和我不摸二哥，不过我的比较邪恶。我现在写的抓中文会乱码，一直不知道怎么解决。借这个一用。搞定后给你参观

fuxkcsdn

2013-06-04 15:19:56 +08:00

@vibbow
可以参考下这网站
http://browsershots.org/
用的是python的，而且可以顺便加入到这个网站的项目中

mozutaba

2013-06-04 15:23:19 +08:00

顺便发现有人截取过毛片网站....
我勒个去，抱歉没看完，既然这样我说完吧，通过获取某些针对性的hosts，对里面的网站截图，生成一个列表来展示这些网站有多么误导人，警示青少年。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/71136

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.