《灵异事件》两个 IP 地址 requests 同一个页面得到的数据不同?

2021-02-27 14:00:23 +08:00
 maloneleo88
odds_headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:85.0) Gecko/20100101 Firefox/85.0',
'Referer': 'http://zq.win007.com/analysis/1973057cn.htm', 'Connection': 'close'}
res_odds = requests.get(url='http://zq.win007.com/analysis/odds/1973057.htm',headers=odds_headers,proxies={"http":'120.232.150.100:80'})
sleep(1)
res_odds.encoding = 'utf-8'
res_odds = res_odds.text
odds = re.search(r';(.*?) id', res_odds, re.S).group(1)
odds = re.sub(r'/', '.', odds)
odds = re.findall('(.*?),', odds)

我就贴一个地址吧,其实每个请求来的都不一样。用上面这个代理 ip get 到的数据 和我本地 get 到的有些许不同。
几户每个页面都有不同,具体不同在数值。 什么原因? 太神奇了????
3718 次点击
所在节点    Python
18 条回复
maloneleo88
2021-02-27 14:06:34 +08:00
代理服务器拿到的
2.5.3 2.5.3
2.5.3 3
2.5.3 2.5.3
2.5.3 3
2.5.3 2.5.3
3 2.5.3
2.5.3 2.5.3
2.5.3 3
3 2.5.3
2.5.3 2.5.3
2.5.3 2.5.3
2.5.3 2.5.3
2.5 2.5
2.5 2.5

本地拿到的
2.5 2.5
2.5 2.5
2.5 2.5
2.5 2.5.3
2.5 2.5
2.5.3 2.5
2.5 2.5
2.5 2.5
2.5.3 2.5
2.5 2.5
2.5 2.5
2.5 2.5
2.5 2.5
2.5 2.5


print(odds[12],odds[26])
print(odds[54],odds[68])
print(odds[96],odds[110])
print(odds[138],odds[152])
print(odds[180],odds[194])
print(odds[222],odds[236])
print(odds[264],odds[278])
print(odds[306],odds[320])
print(odds[348],odds[362])
print(odds[390],odds[404])
print(odds[474],odds[488])
print(odds[516],odds[530])
print(odds[558],odds[572])
print(odds[600],odds[614])
哪位老哥复制一下看看,是不是不同? 为什么会出现这种情况?
datou
2021-02-27 14:07:30 +08:00
珍爱生命,远离菠菜
dorothyREN
2021-02-27 14:49:47 +08:00
@datou #2 搏一搏,单车变摩托
maloneleo88
2021-02-27 14:55:43 +08:00
三岁小孩都懂的道理你再复述干嘛
@datou
eason1874
2021-02-27 14:56:34 +08:00
可能是千人千面,对不同韭菜采取不同策略。

这是什么工作?入职扣护照,离职打断腿的那种?
mercury233
2021-02-27 15:21:27 +08:00
虽然网页地址是.htm ,但一般都是伪静态,本质是动态页面
根据用户 IP 判断地区返回不同的内容是基本操作
maloneleo88
2021-02-27 15:41:26 +08:00
就是自学爬虫,抓数据,拿这个练手。

嗯,千人千面,有一种人就叫爱 bb,全地球都看不惯。

真愁,每次都有扯闲篇的🤣

有时间刷抖音还能赚几毛不是~

我研究足彩行不?你看不惯你去把体彩端了,不用在这扯好嘛? 没威力

要不有空思考一下人生,世界原本真实的样子?

我一直赞同,人类的所有的主观意识都是外界灌输而慢慢形成的。也就是说人类生来根本不存在主观意识,你所有的认知都是对外来信息的被动接受而已。
那,更可怕的来了。人类都认为自己是有主观意识的,然后所有的是非正邪观念都是建立在这个虚假主观意识上的。然后自以为是真实。


再想想,你眼中的美女是真的美吗?还是因为自始自终都是某种信息一直在强化你的意识,大眼睛,苗条,瓜子脸这种才是美女。然后促使你被动认同。


再比如,如果你从小就吃💩,你还觉得💩难吃吗?或是只是有种信息告诉你💩不能吃。假如有一种你不喜欢吃的食物,试着找找原因,是不是因为你从小生存环境就很少接触这种气味的东西? 比如茴香。

每个人都一样,像个机器被动的接受外界信息,慢慢产生认同感,形成了一个虚假的审美观,价值观。之所以有差异是因为接受的信息有差异,我曾经有个国外女友,我发现人类的骨子里是一样的,根本就是白纸一张。只是接受的外界信息不同,慢慢形成了假性认知。

现在就是不想对任何事评头论足,自己都不一定是真的“自己”,又有什么权利去 bb 其他的呢? 🙂
maloneleo88
2021-02-27 15:51:12 +08:00
@mercury233 那这个操作就太骚了,他为什么要对不同的 IP 用户返回不同的信息?
这个是盘口的公开信息,也就是说应该所有人看到的都是相同的。就像晚 7 点打开中央 1 所有人都会看到 cctv-1 一样。

耐人寻味,是技术原因还是有不可告人的秘密。🤔
learningman
2021-02-27 15:55:50 +08:00
楼主原来就是 10 天前那个问问题别人不答就破口大骂的啊
学了 10 天还在这 re 呢,本事不大脾气不小,后面看到的心里麻烦预警下,我先 block 了
mercury233
2021-02-27 16:01:11 +08:00
@maloneleo88 大概为了反爬虫,没有人喜欢自己整理(或者爬来)的数据被爬走变成别人的。返回假数据是常见的反爬手段。你这个代理 IP 是在公开的代理列表里的,网站主动找代理 IP 拉黑或者已经被别人用这个 IP 爬过了吧。
msaionyc
2021-02-27 16:04:47 +08:00
您现实生活中也是这样子的吗
DefoliationM
2021-02-27 16:21:49 +08:00
您现实生活中也是这样子的吗
GM
2021-02-27 16:24:58 +08:00
@maloneleo88 那,你又在 bb 什么呢?
TimePPT
2021-02-27 16:46:56 +08:00
maloneleo88
2021-02-27 18:00:04 +08:00
@mercury233 好的明白了,
maloneleo88
2021-02-27 18:17:53 +08:00
第一遍是回击,也是善意提醒。
第二遍无所谓了。将来嘴贱吃亏的又不是我。🤷
dandankele
2021-02-27 20:08:51 +08:00
@maloneleo88 如同 10 楼说的,一些大厂做风控反爬虫的方案中有一项就是制造假数据并返回,而且作为防爬方来说,不让采集者知道自己已经知道对方是爬虫也是一种技巧。。而不是简单的返回 403 告诉对方。这既是防守也是一种进攻。。对采集者来说也挺恨的。既然楼主得到的这样的结果,说明楼主的采集行为早就被识破了。。
maloneleo88
2021-02-28 09:21:30 +08:00
@dandankele
@mercury233

谢谢了,我明白了。换了代理 IP 就好了。

以前买过一种 L2TP 代理,自带客户端的那种,直接切换本机 IP,能和 python 结合起来使用吗? 手填 ip 太麻烦了,ip 池子意义也不大,失效的过多,还要频繁更换。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/756728

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX