采集淘宝,找不到促销价格。。。

2016-07-08 08:28:21 +08:00
 c7898585

促销价格目测是用的折扣的方式,应该是原价*折扣 但是找遍了整个页面都找到这个折扣的比例在哪 有老司机采集过的能指导下吗

4815 次点击
所在节点    程序员
28 条回复
ufo22940268
2016-07-08 08:30:36 +08:00
你可以通过商品 id 去一淘上抓
javaluo
2016-07-08 08:33:20 +08:00
这年头还采淘宝做啥
c7898585
2016-07-08 09:01:26 +08:00
@ufo22940268
请教下,用火车头 sku_properties 这个参数与 price 和 title 对应的话有什么好方法吗?
还是必须单独再写一个 php ?
c7898585
2016-07-08 09:01:39 +08:00
@javaluo 做一个论坛
aeshfawre
2016-07-08 09:02:10 +08:00
作为一个老司机,
比如这个:https://item.taobao.com/item.htm?spm=a219r.lm874.14.9.0Y2qEA&id=530963237947&ns=1&abbucket=16
你说的折扣价就是这个 39.00 吧.
如果是那就是没错.打开这个页面的时候,你会发现有个 get 发出
https://detailskip.taobao.com/service/getData/1/p2/item/detail/sib.htm?itemId=530963237947&modules=qrcode,viewer,price,contract,duty,xmpPromotion,dynStock,delivery,upp,sellerDetail,activity,fqg,zjys,coupon&callback=onSibRequestSuccess
这里面就有促销价格:
{"cart":true,"loginPromotion":false,"price":"39.00","start":false,"type":"\u7279\u4EF7\u6D3B\u52A8"}

话说有人收掉我这个快 30 岁的爬虫司机么,无业游民啊.
Allianzcortex
2016-07-08 09:27:54 +08:00
我为什么这么闲……不应该赶紧滚去看书吗……

看完我大概明白 LZ 是什么意思了。这样啊,不是所有在网页上看到的信息都是写在源代码里的(是,可以通过审查元素来看到,但 ctrl+u 打开网页源码是找不到的,而网页源码是你用 requests 得到的内容)。

去 W3C 看看 AJax 的内容,然后打开 Chrome 的开发者模式,进入 Network 那一栏,刷新网页,看看页面都向服务器请求了哪些东西)。最主要的就是模拟访问请求(然而按照淘宝那么 BT 的反爬虫,总有一些东西是不能完全模拟的,京东爬的话会好很多)
laoyuan
2016-07-08 09:27:57 +08:00
我就看到了 PHP
gdtv
2016-07-08 09:31:05 +08:00
@Allianzcortex 请教一下,打开 Chrome 的开发者模式,进入 Network 那一栏,刷新网页, 然后能不能从所有请求里搜索文本?
Allianzcortex
2016-07-08 09:41:04 +08:00
@gdtv 能说的再详细一些嘛?我就暂时理解为是搜索 response 里的文字内容了。我没有尝试过,因为基本上你需要的就是一些 AJax 请求,就可以直接过滤掉单纯的 js 文件和图片了(这占了很大的一部分),直接看 response 就能发现需要什么样的内容了。
pyengwoei
2016-07-08 09:44:08 +08:00
@aeshfawre 你地理位置在哪里?
aeshfawre
2016-07-08 10:19:47 +08:00
@pyengwoei 江西宜春
zichen0422
2016-07-08 10:26:31 +08:00
@aeshfawre 在这里能看到老乡. 卧槽,
gdtv
2016-07-08 10:36:33 +08:00
@Allianzcortex 就是在该 html 页面以及该页面引用的所有 js/css 的 response 里面搜索文字内容. 例如 www.a.com/test.html 引用了
www.a.com/1.js
www.a.com/2.js
www.a.com/3.js
某个 js 里有个关键字'helloworld',但我不知道具体在哪个 js 里,当然我可以一个一个 js 打开去找,但有没有什么办法批量搜索这些 js 呢?
Allianzcortex
2016-07-08 10:46:16 +08:00
aeshfawre
2016-07-08 10:47:09 +08:00
@gdtv 玩爬虫必备工具 burpsuite , 直接在 filter 里面填上你的词,就过滤出来了
aeshfawre
2016-07-08 10:52:40 +08:00
@Allianzcortex 感谢,一直没用过 chrome 这个搜索功能. 最新版本是用快捷键 CTRL+SHIFT+F
gdtv
2016-07-08 11:06:10 +08:00
gdtv
2016-07-08 11:06:26 +08:00
@aeshfawre 谢谢
c7898585
2016-07-08 14:18:55 +08:00
@aeshfawre 这个 403 forbidden 的怎么获得返回值的?
aeshfawre
2016-07-08 14:56:37 +08:00
@c7898585 这个..., 你直接点击连接当然是 forbidden 了. 我只是将链接发出来,指明价格在哪个链接. 你自己在 chrome 的网络数据中找这链接, 只能帮到这里了,剩下的你再研究研究.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/291044

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX