[前端] 关于爬虫,关于 facebook

2017-02-23 15:11:53 +08:00
 wenxiang0207
今天爬 facebook 网站的时候遇到一个奇怪的现象,有一条网址链接( facebook 站外),浏览器上是显示放在了<a>Tag 下的 href 里,但是我用爬虫工具(微软开发提供)的时候,工具里面显示的却是这样一串链接:
http://l.facebook.com/l.php?u=http%3A%2F%2Fwww.15wing.af.mil%2FUnits%2F735thAirMobilitySquadron.aspx&h=ATNg9KAgWaURccDb_FrA2uwozGwj0h3u_LIfRLjEawpTgETIW5_CIKrTaRzu5hDdvzBEIvz352BsKMeKvK9TizrS09bTfmWuPZFxTpDNTfwKELjX3hs3p4TdFWA&s=1
差不多二次跳转的意思,这个是怎么实现的,我的理解是 facebook 为了防爬虫做的一个保护,但事实我又抓到了链接数据,完整的 Tag 是这么写的
浏览器:<a href="http://www.elephantjournal.com/" target="_blank" rel="nofollow noopener" onmouseover="LinkshimAsyncLink.swap(this, &quot;http:\/\/www.elephantjournal.com\/&quot;);" onclick="LinkshimAsyncLink.referrer_log(this, &quot;http:\/\/www.elephantjournal.com\/&quot;, &quot;\/si\/ajax\/l\/render_linkshim_log\/?u=http\u00253A\u00252F\u00252Fwww.elephantjournal.com\u00252F&amp;h=ATP5Caih-YKbb5V_iuyP2oFeV1FXrh3P3KmTSjf-b9xeGTfgtIAzUpfOZ7CfRRRYfiULH6pIVvWIt66KhCWD7rhOpVfZC-ThhOaMU7CR_AEvo7BzANvpaXhKQT3f&amp;render_verification=0&amp;enc&amp;d&quot;);">www.elephantjournal.com/</a>
爬虫工具:<a href="http://l.facebook.com/l.php?u=http%3A%2F%2Fwww.15wing.af.mil%2FUnits%2F735thAirMobilitySquadron.aspx&h=ATNg9KAgWaURccDb_FrA2uwozGwj0h3u_LIfRLjEawpTgETIW5_CIKrTaRzu5hDdvzBEIvz352BsKMeKvK9TizrS09bTfmWuPZFxTpDNTfwKELjX3hs3p4TdFWA&s=1" target="_blank" rel="nofollow noopener" onmouseover="LinkshimAsyncLink.swap(this, &quot;http:\/\/www.elephantjournal.com\/&quot;);" onclick="LinkshimAsyncLink.referrer_log(this, &quot;http:\/\/www.elephantjournal.com\/&quot;, &quot;\/si\/ajax\/l\/render_linkshim_log\/?u=http\u00253A\u00252F\u00252Fwww.elephantjournal.com\u00252F&amp;h=ATP5Caih-YKbb5V_iuyP2oFeV1FXrh3P3KmTSjf-b9xeGTfgtIAzUpfOZ7CfRRRYfiULH6pIVvWIt66KhCWD7rhOpVfZC-ThhOaMU7CR_AEvo7BzANvpaXhKQT3f&amp;render_verification=0&amp;enc&amp;d&quot;);">www.elephantjournal.com/</a>
那么问题来了 这里的 onmouseover="LinkshimAsyncLink.swap(this, &quot;http:\/\/www.elephantjournal.com\/&quot;);"事件是什么意思 我写 JS 从来没见到过, facebook 自带的 React 框架也没这语法啊 还有就是页面上现实的 herf 为何与我爬下来的不一样
3507 次点击
所在节点    苏州
1 条回复
RE
2017-02-23 15:55:30 +08:00
为啥在苏州节点…
为啥不能排个版…

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/342626

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX