V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cevincheung
V2EX  ›  程序员

比价网站/插件的价格浮动统计是怎么做的?

  •  
  •   cevincheung ·
    cevin · 2014-03-07 07:41:48 +08:00 · 4607 次点击
    这是一个创建于 3913 天前的主题,其中的信息可能已经有所发展或是发生改变。
    比价网站/插件的价格浮动统计是怎么做的?就是那个折线图。淘宝任意一款商品都会有。怎么做的呢?自己做统计?自己存?不太可能吧?
    12 条回复    1970-01-01 08:00:00 +08:00
    virushuo
        1
    virushuo  
       2014-03-07 07:56:36 +08:00
    自己存,或者用别人的api
    aszxqw
        2
    aszxqw  
       2014-03-07 10:53:29 +08:00
    就是自己存的。自己存为什么不太可能?
    simaoji
        3
    simaoji  
       2014-03-07 12:00:18 +08:00
    自己存有什么问题么
    muzuiget
        4
    muzuiget  
       2014-03-07 12:42:59 +08:00
    就是资金用爬虫定时抓,自己存数据,怎么不可能。但是对于淘宝这种数据量来说,抓取频率肯定很低。
    cgs3238
        5
    cgs3238  
       2014-03-08 06:41:09 +08:00 via iPhone
    终于逮到一个能回答的了
    这种应用要解决两个问题:1、数据来源 2、数据关联

    数据来源问题,一般有三种:1、主动抓取;2、插件上报,用的人越多数据越多越实时;3、商家主动推送,这个需要一定实力,比如你可以给商家带来大量流量,这种方式最省力

    所有数据都自己存起来

    另外数据关联的问题,就是说要主动A商家的X商品其实和B商家的Y商品就是一款商品,他们可以用来比价。
    最简单的方法是判断商品名称有一定相似度,价格差别不是特别大等等。但是这样得出的结果有误差,如果要做到高匹配度,可能需要人肉核对。
    cevincheung
        6
    cevincheung  
    OP
       2014-04-06 22:35:37 +08:00
    @virushuo
    @aszxqw
    @simaoji
    @muzuiget
    @cgs3238
    自己存,别家不说,就淘宝一家就海量商品了。那些小公司怎么存得起? @.@
    muzuiget
        7
    muzuiget  
       2014-04-06 22:43:38 +08:00
    @cevincheung 就是不可能存得起,所以就不准,所以我一直觉得比价淘宝完全没参考价值。
    simaoji
        8
    simaoji  
       2014-04-08 17:30:26 +08:00
    @cevincheung 淘宝上绝大多数肯定就不存啊,也不是所有数据都会存吧。
    cevincheung
        9
    cevincheung  
    OP
       2014-04-08 18:56:41 +08:00
    @simaoji 那还怎么比价?哪个不存?为什么不存?
    simaoji
        10
    simaoji  
       2014-04-08 19:07:19 +08:00
    @cevincheung 可以只存B2C不存C2C啊,重点存某些类目啊,有一些品类网上买的少的也可以不存啊。
    cevincheung
        11
    cevincheung  
    OP
       2014-04-08 19:17:09 +08:00
    @simaoji 只存Tmall么?那淘宝怎么办。就单说手机类目,也不下几百万的数据啊。 至于最后一点,那也是要有数据了才能知道什么东西买的少啊。
    simaoji
        12
    simaoji  
       2014-04-08 20:28:13 +08:00
    @cevincheung 有能力存就存,没能力就不存啊。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1763 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 16:35 · PVG 00:35 · LAX 08:35 · JFK 11:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.