爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?

2020-04-25 20:53:03 +08:00
 suanbing
在谈的外包项目,有几个是爬虫的。

犹豫要不要接。今年接活很难,想挣点钱。

但现在好像爬虫项目都有一定的风险。
16739 次点击
所在节点    程序员
85 条回复
whasyt
2020-04-26 16:20:11 +08:00
基金、资产 的一些公开信息会违法吗,一天一次或者两次的频率
wudalang123
2020-04-26 16:36:05 +08:00
我发布一条信息,有意的可以联系我,我们公司有爬数据项目,跟上游公司有协议,不用担心风险,如果你还是担心,不留任何纸面的内容,只以技术咨询的名义就行,有意的 加我 v:507693411,注明来自 v2ex,详细内容和项目 v 里谈或者电话沟通
pkoukk
2020-04-26 16:40:54 +08:00
密码法了解一下,刚刚实行
如果你爬的是公开数据还好,但如果你通过逆向之类的手段,获取到了对面接口需要的 key 或者签名方法,来伪造请求的话,是妥妥违法的行为了
marcong95
2020-04-26 16:56:50 +08:00
@zhybzc #13 这个侯某的事情,之前有人爆过判决书写的 tt_spider 是头条内部程序,有人把内部程序拿出来了。法官不懂技术,看到什么伪造 UA 之类的以为是个很严重的东西就写判决书上了。
zictos
2020-04-26 17:05:01 +08:00
@marcong95 虽然伪造 UA 只是侯某的一方面,但今天法官能因为不懂技术而把伪造 UA 写到判决书中,认为这个行为很严重,那明天肯定也可以因为单独伪造 UA 让别人坐牢。另外好像不是拿出了内部程序吧,反正判决书看着挺无语的。
zictos
2020-04-26 17:12:18 +08:00
@abcbuzhiming “凭什么普通人就要被抓”这个问法为什么可笑?同样违法,大公司就没事,这正常吗?虽然是现状,难道普通人连说一下都不行了吗?
而且我之所以说那句话是为了反驳你前面说的,你前面说“不允许爬就用任何方法爬都是错的”,既然是错的,那大公司就也是错的。
我也不仅仅是抱怨,而是通过大公司来举例探讨一下普通人用爬虫到底违不违法,单纯拿“爬虫”这个行为来说又到底违不违法。虽然明知道现状是怎样的,那也只是为了讨论一下而已。这个帖子大家也是为了讨论,虽然知道无论如何爬虫都是有风险的,只是风险小而已。
zictos
2020-04-26 17:18:37 +08:00
@abcbuzhiming 你不要拿西方拿举例,西方爬虫违法吗?西方的大企业能把爬他们网站的普通人送进去吗?
zictos
2020-04-26 17:27:01 +08:00
@abcbuzhiming 大企业不是违规就只罚款就行,大企业也有刑事责任的。像爬虫假设以破坏计算机系统罪、侵入计算机系统罪、非法获取计算机系统定罪,由于大企业的体量大,他们的爬虫对别人造成的后果比普通人的爬虫大得多。
你是不知道西方国家的惩罚性赔偿吗?动不动就几个亿的罚款或者惩罚性赔偿。惩罚性赔偿都是赔给普通人的,有律师愿意给普通人打官司,因为这里面的利益非常大。比如老太麦当劳被咖啡烫伤都天价赔偿,如果换中国就是老太自己的责任了,还会有很多人说老太讹人。
zictos
2020-04-26 17:30:22 +08:00
@abcbuzhiming 如果西方国家的爬虫真的成 ca 边行为,那估计那些大企业都不会去做了。拿版权来说,国外就是非常重视版权的。
ajaxfunction
2020-04-26 17:40:26 +08:00
和百度报警抓用户有异曲同工之妙,
你有没有违法和原告是谁关系很大,

恐怕大家不清楚的是未婚小两口去酒店开房都是违法的,只是不追究而已

严格立法,选择性执法,都是手段和工具而已,敢问就是寻衅滋事罪
marcong95
2020-04-26 17:47:07 +08:00
@zhybzc #65 当时 v 站讨论这事情的帖子里面某个回复这么说的,判决书里面不写的话也无从考究。我当时想法也是跟你想得差不多。然后看到有人说是拿到了内部代码,何况这个侯某也是头条的前高管,所以我就姑且信着吧。。。毕竟这种事情事关审判流程、司法透明度、公信力之类的问题,也不是一时半刻能解决的。

不管是爬虫还是爬墙还是 251,事件的被告,在事件发酵到最后也并不是完全清白的。所以这又陷入了那种诸如事实正义、程序正义的事情上。作为旁观者的我,似乎也看不清事实的真相。
DoodleSit
2020-04-26 17:49:29 +08:00
能快速赚钱的方法都写在魔法书里。
winglight2016
2020-04-26 19:02:04 +08:00
@ajaxfunction 敢问就是寻衅滋事罪——看到这里我想起似乎今年又出了“筐”2.0 了,是个什么罪名来着?
crella
2020-04-26 19:24:55 +08:00
一个是爬取一大一小两个招聘网站上的招聘信息,每天 8 点抓去一次;一个是爬取某冷门社区的热帖列表。都没有什么问题吧?

连协程都没用,两个线程下载的。
TimeRain
2020-04-26 23:11:39 +08:00
天眼查那种公司后台背景很强,你个人爬虫很多时候小心点,最好是不要涉及这方面利益
fansangg
2020-04-26 23:24:48 +08:00
爬虫还是很有趣的,看你爬些啥,怎么爬,自己在爬什么数据难道自己心里没点数吗?
ChristopherWu
2020-04-26 23:34:22 +08:00
https://github.com/YongHaoWu/NeteaseCloudMusicFlac 吓得我想把这个项目 Archive 删掉了。诸位给点建议- = -
dengwen168
2020-04-27 08:58:55 +08:00
嗯 ,先将刑法学好。再搞爬虫。。
PbCopy111
2020-04-27 11:30:56 +08:00
海外注册公司,paypal 收款,爬吧。
MengiNo
2020-04-27 11:42:34 +08:00
看看朋友圈那么多 py 的广告,什么设计师用 py 爬取资源分分钟出几十张图。。。不如大力推广让他们先恰。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/666057

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX