在国外放的爬虫撞墙也挺郁闷的。。。

2014-11-27 17:51:32 +08:00
 laoyuan
爬amazon.cn的定向爬虫,这几天就感觉不大对,查了下一看爬到的都是0字节,手工调试发现原来是撞墙了,就是这个亚马逊的页面:

http://www.amazon.cn/JavaScript%E5%8A%A8%E6%80%81%E7%BD%91%E9%A1%B5%E7%BB%8F%E5%85%B8%E5%AE%9E%E4%BE%8B%E6%95%99%E7%A8%8B-%E9%99%88%E4%BA%89%E8%88%AA/dp/B00114B83W

感觉没什么敏感词啊,陈争航这个人名除了写这本书什么也没干,是良民啊~
3757 次点击
所在节点    程序员
19 条回复
mornlight
2014-11-27 17:57:29 +08:00
你可能得先排除一下是不是你的爬虫被amazon屏蔽了
Livid
2014-11-27 17:58:10 +08:00
是的,这个页面确实在国外点开是 connection reset
efi
2014-11-27 17:59:51 +08:00
wtf
66beta
2014-11-27 18:00:37 +08:00
难道是因为评论里有“卓越亚马逊”,哈哈哈
wesley
2014-11-27 18:01:53 +08:00
“动态网”才是真真的G点
efi
2014-11-27 18:02:15 +08:00
你URL里面有一个关键词,你可以自己测试。我刚发出来被删了,这不是深度检测的关键词。不能发的能不能把规矩说明,不要偷偷删。
laoyuan
2014-11-27 18:04:02 +08:00
@Livid
去掉中间的slug就没问题了 http://www.amazon.cn/dp/B00114B83W
所以不是页面内容触发的,就是url触发,而中间那段decode过来完全不知道痛点在哪里:JavaScript动态网页经典实例教程-陈争航
halczy
2014-11-27 18:04:25 +08:00
这个简介是谁写的...
JaVascript JavaScljpt JavaScriDt
laoyuan
2014-11-27 18:04:59 +08:00
@wesley 死了个明白终于
laoyuan
2014-11-27 18:06:41 +08:00
@halczy 这必须是OCR软件干的啊
Livid
2014-11-27 18:07:02 +08:00
@efi 是的。我删除了你的那条。但是在楼主的 notifications 中还是可以看到的。
ck65
2014-11-27 18:07:21 +08:00
@laoyuan 云力态网
9hills
2014-11-27 18:07:22 +08:00
laoyuan
2014-11-27 18:11:03 +08:00
说实话弄书最容易碰到敏感词了,什么时候阿里云上SSD我就把网站搬回国内了
laoyuan
2014-11-27 18:21:55 +08:00
唉,标题有这个词的亚马逊图书条目有267个。。。
laoyuan
2014-12-04 11:10:58 +08:00
@efi @ck65 @wesley

高中数学联赛备考手册 这个也撞墙,G点在何处?
wesley
2014-12-04 11:42:45 +08:00
@laoyuan 学联
laoyuan
2015-12-22 10:39:55 +08:00
又发现一个新的 url 触发:看中国
laoyuan
2016-08-19 15:47:24 +08:00
亚马逊中国全站 https 了,这个问题貌似不存在了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/149748

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX