淘宝现在的 html 都做的这么深？

http://s.taobao.com/search?q=9787802134379&sort=price-desc&fs=0&fcheckbox_clk=1&tab=all&style=list

点击右键看到的源代码基本上和页面上展现的没什么关系了。

这是用到了什么技术

fumer

2014-12-30 23:51:20 +08:00

是为了防爬虫吗？这种页面爬虫是不是也束手无策了

Daniel65536

2014-12-31 00:30:09 +08:00

你看看源代码第四十六行，全在里头，太方便爬虫了。

这只是用js来生成页面罢了

lincanbin

2014-12-31 02:04:16 +08:00

http://www.taobao.com/robots.txt

淘宝本来就禁爬虫的，或者说禁百度，实际上对爬虫不友好。
说用什么技术的话，大概就是前端模板渲染了。
你可以看看第46行，所有数据都存在Dict里了，这样做的好处是可以在前端用模板渲染，大大节约流量。整个页面才60KiB。
如果在后端做模板渲染，单页面尺寸会大好几倍的。

这样做爬虫可以说再方便不过了，直接提取出那一行然后decode，就可以装数据库了。