V2EX禁止抓取?

2013-04-29 20:28:00 +08:00
 BackBox



想抓取V2EX的酷工作。
3831 次点击
所在节点    问与答
14 条回复
dreamage
2013-04-29 20:34:41 +08:00
@ L 老板问问
BackBox
2013-04-29 20:35:07 +08:00
yibin001
2013-04-29 20:41:41 +08:00
http头里加一个referer=v2ex.com应该就好了
swulling
2013-04-29 20:49:40 +08:00
抓取是禁不了的
orzfly
2013-04-29 22:05:07 +08:00
同,ucweb(塞班)访问也是400。
(别pia我说换手机或者不用uc,你若真用塞班还是会觉得uc很有必要的)
hzlzh
2013-04-29 22:15:19 +08:00
不用抓,api现成的,try:
http://v2ex.com/api/topics/show.json?node_id=43
wuyamoyun
2013-04-29 22:19:10 +08:00
塞班可以用opera正常
jacy
2013-04-29 22:33:54 +08:00
模拟成一个正常的浏览器试试,加上rederer,cookie之类的。
iloahz
2013-04-29 23:13:48 +08:00
借楼抱个不知道是特性还是bug的东西:在wp系统的uc浏览器中,后退键的结果是乱的。比如我访问首页->某主题,然后后退,有时就知道退到uc的首页了,也就是跳过了v2ex的首页
@Livid
GordianZ
2013-04-29 23:18:08 +08:00
没有 user agent 的全部返回 400.
mikuazusa
2013-04-29 23:56:40 +08:00
@GordianZ @BackBox 貌似听L说是V2EX的防DDos逻辑里加了对HTTP Request Header的检测...可以试试伪造一个完整的Header去抓,另外即使有UA貌似不符合规则的貌似也一样400
workaholic
2013-04-30 10:53:05 +08:00
部分节点需要登录,肯定可以抓的
BackBox
2013-04-30 20:05:04 +08:00
@mikuazusa 有理!!
居然为了防DDOS加了HTTP Request header验证,

但是iptables不能对http request header验证。
到了应用服务器验证,也就没有多大效果了。。毕竟也阻塞了。
yeshang
2013-04-30 20:49:15 +08:00
明显 @Livid 不理你

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/67337

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX