爬虫去京东商城。价格被隐藏的问题

2012-05-30 00:10:00 +08:00
 yuyuyu101
正常浏览器访问京东的商品页,可看到红色的价格,并且查看html代码可看到价格是文本格式。

我用爬虫访问时,返回的html代码没有价格,我尝试修改爬虫的user-agent为chrome,但是仍然没用。有人知道。京东是采用什么原理进行屏蔽的么
15215 次点击
所在节点    程序员
29 条回复
csx163
2012-05-30 13:52:51 +08:00
此贴学到不少东西,感谢
@phuslu
@cutehalo
kxboy
2012-05-30 19:15:26 +08:00
这个帖子我喜欢,我前一段时间为此困扰好久。
Air_Mu
2012-05-30 19:49:18 +08:00
<script type="text/javascript">

function jdPshowRecommend(url,stype) {

var title = "摩托罗拉(Motorola)ME722 3G手机(精锐蓝)WCDMA/GSM";

var content = "我在@京东商城 发现了一个非常不错的商品:摩托罗拉(Motorola)ME722 3G手机(精锐蓝)WCDMA/GSM,京东价:¥1458.00。感觉不错,分享一下";

var img ="http://img10.360buyimg.com/n1/4332/6e812b1c-2cbe-4bb2-a313-207121b32684.jpg";

var productUrl ="http://www.360buy.com/product/342079.html?sid=";

var pin = readCookie("pin")||"";

if (stype == "qzone") {

url = url + "&title=" + content + "&pic=" + img + "&url=" + productUrl + pin;

}

if (stype == "sina") {

url = url + "&title=" + encodeURIComponent(content) + "&pic=" + encodeURIComponent(img) + "&url=" + encodeURIComponent(productUrl) + pin;

PostSinaDate();

window.open(url, "", "height=500, width=600");

}

if (stype == "renren") {

url = url + "title=" + title +"&content="+ content + "&pic=" + img + "&url=" + productUrl + pin;

}

if (stype == "kaixing") {

url = url + "rtitle=" + title + "&rcontent=" + content + "&rurl=" + productUrl + pin;

}

if (stype == "douban") {

url = url + "title=" + title + "&comment=" + content + "&url=" + productUrl + pin;

}

if (stype == "MSN") {

url = url + "url=" + productUrl + pin + "&title=" + title + "&description=" + content + "&screenshot=" + img;

}

if (stype != "sina") {

window.open(encodeURI(url), "", "height=500, width=600");

}

}



//新浪分享POST数据
hnpdslyf
2012-05-30 22:03:04 +08:00
识别图片也不难啊,那么整齐的数字,分块对比一下就行
asnidea
2012-05-31 09:21:54 +08:00
不错,mark下
aerofloyd
2012-05-31 21:02:31 +08:00
感谢。。
cooiky
2012-06-01 16:35:54 +08:00
@Air_Mu 这个价格是不准的,对一些特价活动的商品
vexfisher
2012-06-03 21:20:25 +08:00
同上
一个商品有N中属性组合,不同的属性组合对应的价格是不同的,所以这个JS函数的价格仅供参考啊
cangbaotu
2016-05-16 19:24:40 +08:00
你可以参考这篇教程,里面专门讲了如何写这类爬虫(异步加载,代码在神箭手云爬虫上可以直接跑): http://blog.csdn.net/youmumzcs/article/details/51385856

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/37802

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX