鉴于自己能力有限,在此重金寻求反爬虫技术

2018-12-26 11:31:02 +08:00
 frozenway

昨天下班时,归心似箭的我收拾好东西,就迫不及待的夺门而下班。不料,一只脚刚迈出公司大门,就被 boss 叫住。我顿时懵了,什么事?然后忧心忡忡的来到 boss 的办公司,一聊。原来有个技术需求,大概是这样的:公司的业务是在各大平台上投放我们自己的产品的网页广告的,但是网页页面有些夸张的词语,导致在很多平台投放时被这些平台的爬虫检测到有这些词语,进而风账户。所以 boss 的意思是能不能做到网页的内容只能让客户看得到而爬虫看不到!!!也就是屏蔽掉这些爬虫。鉴于我自己糟糕的 php 技术,boss 说我能力有限,估计做不了,所以让我广发英雄帖,招募来自五湖四海,大江南北的仁人易士,大牛大神。只要能解决这个问题,价钱随便开!!!

7915 次点击
所在节点    程序员
62 条回复
frozenway
2018-12-26 14:14:14 +08:00
@iannil 那你要多少,可以按月计费啊
oneonesv
2018-12-26 14:20:25 +08:00
做这个的挺多的,这俩了解下

https://vip.ipcloakapi.com/
https://ipcloak.com/

靠不靠谱就不知道了,据说很好使
xe2vxe2v
2018-12-26 14:21:23 +08:00
一:自定义 web-font,参考 https://blog.csdn.net/fdipzone/article/details/68166388
二:字体编码,例如“这是广告” 用 Unicode 转下 “\u8fd9\u662f\u5e7f\u544a ”;
三:js 加载,例如 ajax 请求接口;
四:图片
总之让爬虫不能直接拿到数据,或者拿到数据但需要处理后才能识别
chuqi
2018-12-26 14:21:51 +08:00
现在这些信息流平台都有毒的很,无力吐槽。
之前看到过泡违规广告的几个户,他们是用的 js 跳转+代码混淆,我不知道他们是不是还活着。之前在我们这边做过...
iannil
2018-12-26 14:25:04 +08:00
@frozenway #41 不确保解决,可以把你们广告发出来看看是啥样的,估计下复杂度。不方便发论坛的话,加微信发也行:eHVueXV4 ( base64 )
bigboss88
2018-12-26 14:28:20 +08:00
原来你们是做微信加粉的 哈哈

可以的 可以联系我。


@Showfom 没错,个人咨询,我的收费是 2000 美元一次,而公司的话则是 1 万美元。

为什么公司会贵些? 因为公司咨询 必然会问到广告投放业务的具体细节,如何更低成本更高效率的优化,如何节省业务时间周期。 因此,不仅仅会讨论技术方面的细节,还会讨论到业务细节。

我一个小时的咨询建议,能帮他们省 10 万美元,所以会贵些。
bigboss88
2018-12-26 14:28:58 +08:00
@oneonesv 你提供的这些,早就过时了……
bigboss88
2018-12-26 15:13:24 +08:00
@iannil 招人么,不切实际。

能解决这些问题的,基本上都是搞 Mediabuy 并且玩得很溜的,广告跑不动的时候或者审核政策很严的时候,宁愿每天亏几万也是不会随便找个公司去上班的。这样的人,怎么招?
w88975
2018-12-26 15:17:49 +08:00
这玩意我做了好几年,但并不是做广告反屏蔽的,做的是某种擦边球网站的反检测,各种姿势反检测。除了人工检测,机器根本没办法检测出来。
人工审核倒是有个不优雅的办法,就是 ip 池白名单
zouchao911
2018-12-26 15:39:51 +08:00
@
wly19960911
2018-12-26 15:52:06 +08:00
改字体是最适用的方法,利用自造的字体和编码,去渲染页面,抓到了你都只能看见方块的乱码,因为你普通的爬虫根本不会加载字体,而且就算加载了字体存进数据库的时候也不好还原成 utf-8 的字,只需要正则替换和页面加载一个字体就能解决的问题。
KasuganoSoras
2018-12-26 16:05:52 +08:00
我之前有个骚操作:
1. 如果爬虫是直接判断文字,那么就使用 AJAX 动态加载内容
2. 爬虫升级了,会读取 AJAX 内容,那么就把文字改为图片
3. 爬虫又升级,会 OCR 识别图片,那么就改为 AJAX 动态加载图片,并且加一些需要客户端进行计算然后 GET 到服务端再验证
4. 爬虫使用 WebKit 内核模拟浏览器,那么就给图片加个 CSS:display: none; 然后 hover 后 display: block
5. 再高级点……爬虫模拟鼠标的话,我就不知道了
soho176
2018-12-26 16:13:31 +08:00
办法很简单,就是审核的在那里,你那里就不投放广告,比如头条北京审核的,你就检测 ip 发现只要是北京的 ip,都访问正常审核页面,其他的地方的 ip,访问广告页面。
frozenway
2018-12-26 17:20:14 +08:00
@soho176 我们现在就是用这种方式,但是被 VPN 或代理所破
frozenway
2018-12-26 17:21:57 +08:00
@KasuganoSoras 你这些方法很 6,可是太麻烦
frozenway
2018-12-26 17:25:25 +08:00
@iannil 不好意思,公司上班不准聊微信,所以没能联系您
xiaozuo
2018-12-26 17:39:21 +08:00
Cloak 而已,前提是有审核公司的数据资料,并不是很深的学问。
souce
2018-12-26 18:38:55 +08:00
转图片+1
iannil
2018-12-26 21:33:56 +08:00
@bigboss88 #48 分人分情况,不能一概而论,都是可以谈的。招人未必就是全职就是上班,合作方式有很多种。
iannil
2018-12-26 21:34:11 +08:00
@frozenway #56 么事

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/521089

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX