淘宝现在的 html 都做的这么深?

2014-12-30 23:50:17 +08:00
 fumer

http://s.taobao.com/search?q=9787802134379&sort=price-desc&fs=0&fcheckbox_clk=1&tab=all&style=list

点击右键看到的源代码基本上和页面上展现的没什么关系了。

这是用到了什么技术

3799 次点击
所在节点    互联网
6 条回复
fumer
2014-12-30 23:51:20 +08:00
是为了防爬虫吗?这种页面爬虫是不是也束手无策了
Daniel65536
2014-12-31 00:30:09 +08:00
你看看源代码第四十六行,全在里头,太方便爬虫了。

这只是用js来生成页面罢了
lincanbin
2014-12-31 02:04:16 +08:00
http://www.taobao.com/robots.txt

淘宝本来就禁爬虫的,或者说禁百度,实际上对爬虫不友好。
说用什么技术的话,大概就是前端模板渲染了。
你可以看看第46行,所有数据都存在Dict里了,这样做的好处是可以在前端用模板渲染,大大节约流量。整个页面才60KiB。
如果在后端做模板渲染,单页面尺寸会大好几倍的。

这样做爬虫可以说再方便不过了,直接提取出那一行然后decode,就可以装数据库了。
typcn
2014-12-31 07:46:47 +08:00
方便爬虫+1 找出JSON来,解码一下,结构化数据更省事了

防的是“小学生”爬虫,比如那种用易语言花钱让别人写正则匹配页面内容的。
qdwang
2014-12-31 09:06:36 +08:00
weibo也是一样 还节约了服务器生成页面内容的开销
xoxo
2014-12-31 10:23:19 +08:00
JSON
+
JS模板

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/158062

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX