很想这种类型的网站能采集吗?该如何采集

2014-02-15 16:25:37 +08:00
 LionXen
http://www.tomtop.com

URL是没有连号的ID,如何能根据分类来进行分类采集。

系统是zencart ,求思路
5622 次点击
所在节点    程序员
35 条回复
tenacy
2014-02-23 09:56:52 +08:00
@54dev
@LionXen
还有各位大侠。
我在zencart后台看whoisonline总是看到几个IP,什么也不做,停留时间很长,而且经常来。不知道是怎么回事?而且IP类似这种,208.50.101.154,208.50.101.153;不会是来刷广告的渣吧?
54dev
2014-02-23 13:39:15 +08:00
@tenacy 看网站日志里的header里的user-agent和referer,是不是蜘蛛。
tenacy
2014-02-25 14:18:05 +08:00
@54dev 在zencart后台EXCLUDE SPIDERS没有用吗?
54dev
2014-02-25 14:53:39 +08:00
@tenacy 你是怎么设置的呢
evansun
2014-02-27 09:12:45 +08:00
@yaotian 用户肯定是不知道,都是在搜索引擎里面搜的,谁排在前面,谁才能获取订单。技术人员对货源和物流方面不擅长,所以就做做分销了。
tenacy
2014-03-01 10:01:33 +08:00
@54dev zencart后台的tools-whoisonline-exclude spider:yer|no.
再请教一个adwords再营销问题。网上看到的资料,比如要创建一个“产品页”的受众列表,那么就要把代码放在所有的产品页面上?那么针对所有访问网站的用户是不是放在tpl_main_page.php或者footer就可以?我想创建一个针对所有访问过网站用户的再营销列表。请教了。
54dev
2014-03-07 15:24:23 +08:00
@tenacy 后台的那个工具有用,但不排除其他的蜘蛛,zc的代码里不知道屏蔽了哪些。
这种统计和分析性的代码放在footer里就行了。如果你单单只统计产品页,就放在产品详情页的模板里。
tenacy
2014-03-07 21:44:25 +08:00
@54dev 谢谢!
tenacy
2014-03-18 14:32:47 +08:00
@54dev 怎么屏蔽国内IP?
54dev
2014-03-18 14:41:26 +08:00
如果是apache可以通过.htaccess http://www.ipdeny.com/ipblocks/data/countries/cn.zone 这里有ip列表
keven
2014-03-23 19:50:57 +08:00
这种没有规律的最佳的方式是通过模拟人工翻页采集,可以试试八爪鱼采集器,这个软件以模拟人的各种操作,免费的
tenacy
2014-06-03 18:34:42 +08:00
@54dev 又来请教了。一个以色列客户发截图给我,paypal can't process this transaction because of a problem with the seller's website。可是当天早上5,6点的时候有客户成功下单过。可能是什么问题呢
54dev
2014-06-03 23:05:32 +08:00
@tenacy 什么收款,paypal?让用户检查 一下地址的问题。然后问他下订单走到哪一步,后台有没有保存他这个订单。
oceantree
2016-08-10 14:58:09 +08:00
可以试下用这个平台写爬虫,然后就可以采集了
oceantree
2016-08-10 14:58:26 +08:00
http://www.shenjianshou.cn/
神箭手云爬虫开发平台

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/100356

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX