做比价程序遇到的问题求解

2010-12-04 19:57:57 +08:00
 pingju
京东的商品价格是用js显示的,新蛋是用图片。

问题1. 这些网站有没有开放接口?我没能找到呀。豆瓣是通过合作取得的数据吧。
问题2. 用PHP的话,怎样可以高效得从页面提取出需要的数据。我目前用正则匹配,速度实在难以接受。

这里的高手愿意帮忙给个提示吗?谢谢!
5638 次点击
所在节点    问与答
9 条回复
won
2010-12-04 20:02:36 +08:00
html采集吧,最通用的方法,管他什么api
yoyicue
2010-12-04 20:02:44 +08:00
这种脏活累活 还是python高效啊 ~
daqing
2010-12-04 20:08:40 +08:00
从页面提取数据,用DOM啊。。最好用个支持CSS选择器的DOM库,会很爽的。

Ruby的话,推荐Nokogiri
zhendi
2010-12-04 20:09:40 +08:00
1. 没有开放接口,你可以跟他们谈,或者跟我们一样自己写个识别系统,只是数字识别,不是很难。
laiwei
2010-12-04 20:12:09 +08:00
没有api 总归很被动 当然,如果我们的提取 设别做的足够nb的话 那就变为主动了~

建议立足于提取
aligo
2010-12-04 20:56:44 +08:00
。。。楼主是谁?想做什么?
ong
2010-12-04 21:22:26 +08:00
@daqing nokogiri太牛叉了,“锯”这个项目名太传神了
est
2010-12-04 21:35:14 +08:00
@daqing nokogiri果然牛。。。
pingju
2010-12-05 01:19:19 +08:00
@aligo 业余PHP学习,感兴趣就开始做,也为练手

谢谢大家的热心回答!按提示找到了 the simpleHTMLdom library http://phpforce.org/8 先研究一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/5387

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX