每一行php代码都是自己敲出来的购物比价站,jiabibi.com

2013-01-17 10:57:09 +08:00
 laoyuan
http://www.jiabibi.com 购物价必比!
 
包括爬虫,包括极其山寨的mysql全文检索、品牌识别商品归并算法,全部一行一行敲出来!不知对象为何物,没写过类,只会写函数!!刚入门的时候架apache架了三个晚上才成功,没有任何人指点,所以,just do it, 你也可以!
 
呵呵,放一个还没公开的页面:
http://www.jiabibi.com/jianlou/
暂是我不打算做用户系统,说白了我不打算在用户黏度上下多少功夫,只要能提供有价值的服务,用户买东西之前能想起来上这网站来看一眼,就足够了!
9507 次点击
所在节点    分享创造
55 条回复
lusin
2013-01-17 17:38:21 +08:00
laoyuan
2013-01-17 19:36:08 +08:00
没有博客,很久以前写过,感觉越写越装B!

商品的归并有一定的算法,最后人工审核,不可能完全靠程序完成匹配,否则尼玛成人工智能了。这个工作每天都在进行,因为人工审核的速度有限。
cooiky
2013-01-17 19:58:49 +08:00
每天自动发文章?这个是怎么手工发的?
看了下价格历史数据,好像去去年十一开始的?
laoyuan
2013-01-17 21:40:10 +08:00
文章当然是人工发的。

感觉有黑客光顾。。。刚才我登FTP,结果提示我人多登不上,我ftp最多在线人数设的3人。。。
lusin
2013-01-17 23:02:25 +08:00
@laoyuan 网上找到这方面的资料比较少,可以请教下算法的大概思路吗?(或者楼主是从什么途径学习的呢?)

还以这个http://www.jiabibi.com/product/1000700196/链接中产品为例,“Midea美的面包机EHS15AP-PW(电脑版/15分钟断电记忆/13小时精准预约/您身边的面点专家)"标题这么长,主要关键字就是:美的、EHS15AP-PW这两个,如何去匹配呢?
laoyuan
2013-01-18 05:03:32 +08:00
这个主要靠经验,说成算法相当有装B嫌疑。我并不赁于分享这些经验,因为只要你做,做进去,一定也可以解决。
首先识别品牌,这些电商中三分之二的商品本身就有品牌这项结构化数据,利用这些数据可以构建一个品牌库,剩下三分之一没有品牌的,标题从品牌库里过一遍,strpos(),看品牌是否存在于标题中,如果只匹配到一个品牌,那就是它了,两个以上人工选一下。
确定品牌后就轻松了,美的商品数在所有品牌中排前50,总共也就区区五六百款,把京东的作为标准,亚马逊易购之流通通在京东里过一遍。这时候可以匹配型号,连续的字母数字-/用 preg_match_all 提出来(EHS15AP-PW),具有独特性?好,它就是型号,和京东有型号的比对下,型号一致价钱又差不多的那就是同一款。提不出型号的,最起码我能提出来品种,几千个标题统计下词频,从高到低列出来人工筛选下,剔掉系列、不锈钢、电脑版等描述词,剩下的就是电磁炉、热水器、豆浆机。。。手上又有了品种库。确定品种后更轻松了,一个品种顶多几十款,想怎么玩怎么玩~
gjk1992
2013-01-18 11:04:07 +08:00
看过我之前的帖子么,我也研究比价算法,求交流合作,大三学生
sohoer
2013-01-18 11:25:25 +08:00
www.shishibi.com 时时比 实时比,我打算每小时更新

装B一下
laoyuan
2013-01-18 15:08:04 +08:00
@sohoer 打算做浏览器插件?还木上线?
sohoer
2013-01-18 15:23:53 +08:00
才刚刚解决抓取,慢慢来,不过我是JAVA平台,有很多第三方库,不需要什么都自己造应该会快很多

你48小时更新一次没竞争力啊,现在有很多比价的一般一天也会更新几次
laoyuan
2013-01-18 15:58:04 +08:00
嗯嗯,加网线~~
laoyuan
2013-01-18 16:28:20 +08:00
搞JAVA的,NLP么?洋枪对土炮,燃!战!
gjk1992
2013-01-18 21:40:50 +08:00
@laoyuan 加QQ 188869727 想交流下 我大三学生,想学习下
zsdsz
2013-01-19 00:35:40 +08:00
@lusin 最简单的方法 用广告联盟的开放平台 一堆数据给你用
laoyuan
2013-01-19 11:09:14 +08:00
LS,这是在中国。。。。
zsdsz
2013-01-19 12:04:05 +08:00
@laoyuan 亿起发 和59秒有 你看看
gjk1992
2013-01-19 13:18:48 +08:00
@zsdsz 那个就是普通的搜索,没有比价功能。更没有价格变化趋势
cooiky
2013-01-20 13:27:57 +08:00
价格那个图片识别是用的什么库?
laoyuan
2013-01-20 22:03:48 +08:00
我相信没有任何一个做比价的网站是从图片识别价格的。
lala
2013-01-21 04:28:27 +08:00
刚开始能做到这程度已经是非常的impressive了,这个idea是可以赚钱的,而且有相当的可能性。。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/57864

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX