laoyuan
2013-01-18 05:03:32 +08:00
这个主要靠经验,说成算法相当有装B嫌疑。我并不赁于分享这些经验,因为只要你做,做进去,一定也可以解决。
首先识别品牌,这些电商中三分之二的商品本身就有品牌这项结构化数据,利用这些数据可以构建一个品牌库,剩下三分之一没有品牌的,标题从品牌库里过一遍,strpos(),看品牌是否存在于标题中,如果只匹配到一个品牌,那就是它了,两个以上人工选一下。
确定品牌后就轻松了,美的商品数在所有品牌中排前50,总共也就区区五六百款,把京东的作为标准,亚马逊易购之流通通在京东里过一遍。这时候可以匹配型号,连续的字母数字-/用 preg_match_all 提出来(EHS15AP-PW),具有独特性?好,它就是型号,和京东有型号的比对下,型号一致价钱又差不多的那就是同一款。提不出型号的,最起码我能提出来品种,几千个标题统计下词频,从高到低列出来人工筛选下,剔掉系列、不锈钢、电脑版等描述词,剩下的就是电磁炉、热水器、豆浆机。。。手上又有了品种库。确定品种后更轻松了,一个品种顶多几十款,想怎么玩怎么玩~