![]() |
1
Joeith 2024-07-21 17:17:22 +08:00
「真~面向监狱编程」
|
![]() |
2
grayfox OP 像 51job 、boss 这些
|
4
liaohongxing 2024-07-21 18:12:18 +08:00
极大法律风险,爬虫可以定罪 非法获取计算机信息系统数据罪 , 网站还可以报警称我服务器被爬崩了(尽管没有爬崩),又来一个 破坏计算机信息系统罪
|
5
nyxsonsleep 2024-07-21 18:32:07 +08:00
控制你的频率。个人使用问题不大,人家有风控的,你还没爬几条 IP 就挂了。
|
![]() |
6
akira 2024-07-21 18:34:43 +08:00
不要用任何 反反爬 技术,不要拿去卖钱,应该就问题不大了
|
7
qoras 2024-07-21 18:38:26 +08:00
@liaohongxing 很好奇, 为什么大公司做火车票抢票, 代买这些就是可以的呢
|
![]() |
9
iorilu 2024-07-21 19:01:34 +08:00
肯定有风险得
非要搞就弄个国外主机爬, 至少保护下自己 当然了, 有的必须要账户登录, 那就要看你怎么隐藏自己了 |
![]() |
10
kk2syc 2024-07-21 20:18:03 +08:00
@qoras 火车票机票这些实际上是聚合调用很多大大小小票务公司的接口,人家本身是合法的,只要不超过官方给他们的接口 QPS/TPS 就没问题
|
![]() |
11
sead 2024-07-21 20:29:50 +08:00
只要是境内的站点,就要远离爬虫;走正规渠道的 api
|
![]() |
12
yufeng0681 2024-07-21 21:19:14 +08:00
没啥风险,你根本爬不了多少条。 人家反爬技术是一个团队在做。
|
13
xe2vdw 2024-07-21 21:35:02 +08:00
非法获取计算机信息系统数据罪、破坏计算机信息系统罪了解一下。另外简历也太敏感,侵犯公民个人信息罪了解一下。
|
14
Rache1 2024-07-21 21:36:10 +08:00
同前面所说的,除了非法侵入计算机系统,还有可能涉及侵犯公民个人信息
|
![]() |
15
R4rvZ6agNVWr56V0 2024-07-21 21:49:41 +08:00
|
![]() |
16
4BVL25L90W260T9U 2024-07-21 21:50:14 +08:00
收集个人隐私,不管按哪个国家都是严重的犯罪,这块还真不用黑天朝
|
![]() |
17
abcbuzhiming 2024-07-21 22:04:10 +08:00
你自己爬着玩玩,只要不把别人的服务器拖垮了,一般不会找到你头上。
但凡你是在公司干这事情,那你就得有一个极其靠谱的靠山——在出事的时候把你捞出来。这里面的关键点不在于“爬”,而是你把“爬”来的数据拿来干什么。绝大部分公司都是死在这上面。把没授权的数据拿来商用但凡抓到就是死 @qoras 因为人家大公司有强力的法务团队和政府关系团队,你有吗? |
18
forgottencoast 2024-07-21 22:39:46 +08:00
以前环境很宽松的时候,我们公司都爬过,全扒拉下来了,其中有个网站还给爬崩过。。。
现在想想都发抖。。。 |
![]() |
19
zhw2590582 2024-07-21 23:01:37 +08:00
现在的反爬虫技术应该很成熟了吧,所看到的文本根本就不是 html 文本
|
![]() |
20
akinoowari 2024-07-22 00:50:30 +08:00 via iPhone
以智联为例,爬简历需要账号上传营业执照,而且 qps 稍微一高,或者短时间爬的量稍微大一点,就直接封账号。
|
21
lanyi96 2024-07-22 09:51:23 +08:00
非法存储公民信息罪
|
![]() |
22
ISOtropy 2024-07-22 10:20:45 +08:00 via Android
个人用没人管你 商业上别侵害到对方的利益就行 当然 不按照 robot.txt 爬虫违法
|
23
dyllen 2024-07-22 10:31:44 +08:00
你这又爬虫,又别人简历的。你自己玩没事,你要公开被抓到了,别人要搞你,你看看你犯了不止一条。
|
![]() |
24
me1onsoda 2024-07-22 11:07:12 +08:00
正常爬的话没问题,但没啥用肯定是满足不了你的预期,基本是做了反爬,跟它对抗那就是另一回事了
|
25
Hozoy 2024-07-22 13:18:07 +08:00 ![]() @kk2syc #10 说错了,大公司提供火车票购票都是走的 12306 客户端或者 web 端协议,都是逆向出来搞的,不然为什么要你的 12306 的账号密码? 现在没出事是因为 12306 默许这些公司去爬。你可以去裁判网看一下,爬火车票没有一例被起诉的 不管是公司还是个人。
|
![]() |
27
zcybupt2016 2024-07-22 14:15:45 +08:00
|
![]() |
28
cherryas 2024-07-22 14:45:36 +08:00
12306 都澄清 100 次没有和任何第三方平台有合作了。
|
![]() |
29
kk2syc 2024-07-22 17:11:46 +08:00
|
![]() |
30
cherryas 2024-07-22 17:28:05 +08:00
@kk2syc 首先 12306 就不会给绿皮时代的公司开发订票 api ,有也是和 12306 窗口同级的查票软件。 最终取数据还是走破解协议。
|
31
Hozoy 2024-07-22 20:54:12 +08:00
@kk2syc #29 来,你要是较真我还真给你查一下,飞猪:纸质火车票就是报销凭证(暂不提供电子发票),您可在开车前或乘车日期之日起 180 日内(含当日),凭乘车人购票证件原件(如多乘车人,需分别提供),到全国任意火车站自助取票机或售票窗口换取报销凭证。携程:如需车票报销凭证,可在开车前或乘车后 180 日内凭乘车人购票证件原件前往车站的自助售/取票机打印。去哪儿:您好,火车票无法提供电子发票,如您需要火车票发票,请在开车前或乘车之日起 180 日内,凭乘车人购票证件原件自行去火车站打印报销凭证。 自己如果不了解行业内消息就别显得知道的很多。现在大厂买票都是走的逆向的协议,哪里来的订票 api 。
|
![]() |
32
kk2syc 2024-07-23 10:47:35 +08:00
|
![]() |
36
8355 2024-07-23 16:04:35 +08:00 ![]() 前面的说到 12306 这性质还一样,12306 是面向所有人公开信息
你这个在线简历是非公开信息,而且还是个人隐私数据,涉及姓名/手机号码/生日/工作经历等敏感信息。 |