惠惠购物助手 这个插件原理有人懂?

2014-11-18 18:00:44 +08:00
 benjiam
从广义看 应该比较简单,就是比较价格。但是有几个细节 想知道

1. 它如何获取产品的价格, 方法有几种,
1 大量的爬虫去爬,自己再分析。 这个难度比较大
2 插件自己分析,然后回传,这个方法比较实用,但是如何分析这么多网站的各种html,
3 插件把html 发回去,让后端来解析。 这个最靠谱。可惜js 水平太差,看不太懂它的js 源码

在页面内插入价格走势图 这个不知道 jd taobao z.cn 这么多网站它是如何实现的?我只知道在jd是有的。
7665 次点击
所在节点    问与答
16 条回复
explon
2014-11-18 18:07:16 +08:00
就是第一种方法,你觉得难度大网易不觉得
benjiam
2014-11-18 18:17:03 +08:00
jd还能爬,淘宝没机会。不信你让百度去爬爬淘宝。如果百度把价格爬下来做推荐,阿里的市值立刻腰斩
zts1993
2014-11-18 18:25:22 +08:00
爬虫和JS发送都有。
内容插入明显是js代码实现的。
benjiam
2014-11-18 18:34:16 +08:00
我的意思各类网站jd z 淘宝 打折不打折,优惠,各种情况,他如何区分并插入的
wlh
2014-11-18 18:42:20 +08:00
你机子上的插件帮忙分析,然后发回服务器的,我有时候看美亚有些冷门物品的历史价格,没更新,过一会刷新页面就更新了,应该就是我贡献的数据了
benjiam
2014-11-18 18:46:10 +08:00
@wlh js分析网页内容再回吐不太现实。也就是我说的方案2 估计还是整个网页吐回去。服务器分析的 方案3。 如果插件安装量很大的话,每天回吐数据也会很高
mkeith
2014-11-18 18:48:10 +08:00
百度是因为这个淘宝robots.txt限制了
benjiam
2014-11-18 18:58:03 +08:00
@mkeith 百度这么有节操了?有了百度导流量,没人买广告,直通车,没人去开天猫。你这是要马云的命。

我不太清楚慧慧对淘宝有无比价能力,如果有那多半考方案3 方案1 应该很快被屏蔽。方案2的问题是实现很麻烦,网站一变化,就得改。如果网站多个版本并存,那么靠js分析基本不可能
qazzaqqazzaq
2014-11-18 19:01:40 +08:00
这篇博文详细讲解了: http://techblog.youdao.com/?p=459
skybr
2014-11-18 19:09:09 +08:00
etao对淘宝的数据都收录不全, 实时性也不好, 别说第三方了.
benjiam
2014-11-18 19:19:15 +08:00
@qazzaqqazzaq 谢谢 我主要疑惑的就是淘宝的价格抓取。如果抓取过程不被限制,其他的事情就是慢工细活了。3年前我抓了京东 15分钟可以把主流商品抓完。但是现在再跑已经会被屏蔽了
GhostFlying
2014-11-18 20:10:56 +08:00
个人抓取有难度不意味着网易抓取有难度,所以没必要让客户回传页面
benjiam
2014-11-18 20:18:52 +08:00
@GhostFlying 抓取的难度在于被屏蔽,足够多的IP加上变化策略是能抓取的。
GhostFlying
2014-11-18 20:19:59 +08:00
@benjiam 是的,所以对网易而言回发url就足够了
lincanbin
2014-11-19 00:10:33 +08:00
http://www.jd.com/robots.txt
这玩意跟一淘一个原理,就是个爬虫,而且不检查robots.txt
CupTools
2014-11-19 05:03:09 +08:00
HoverHound

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/147522

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX