爬虫外包岗位有什么坑吗？有知道比冲科技的吗？

iSpy

2024-01-31 19:52:21 +08:00

先在这里谢过诸位前辈了🙏

wzhpro

2024-01-31 19:55:33 +08:00

不怕违法吗

iSpy

2024-01-31 20:36:52 +08:00

@wzhpro 您是指这个岗位相比一般的爬虫岗位风险更大吗？

996bujiaban

2024-01-31 22:54:33 +08:00

抓到敏感数据就背锅，或者采集完就走人

iSpy

2024-02-01 02:27:46 +08:00

@996bujiaban 想到前半句了。后半句竟然这么流氓吗？

locoz

2024-02-01 08:54:57 +08:00

坑在于外包这个工作形式，其他没什么坑。

比冲科技这个公司，从官网介绍来看明显是个做外包项目较多的公司，驻场外包人员对于他们来说本质上就是些关系没那么大的“资源”，且对于甲方的无限光年而言也只是个外部公司的员工，你相当于是个被夹在中间的边缘人。

而且，由于你的人员性质特殊，也很容易有公司层面的责任归属问题。假设出了啥事情（任何事情），扯皮可能都得扯半天。

---

单纯从工作内容来说，目前搞 LLM 的多少都会有点爬语料甚至从竞争对手那搞模型输出结果来训练的情况，但要有足够多的数据去训练也没什么更好的办法，这是当下甚至未来很长一段时间内的常态现象，也是典型的野蛮生长期的红利。在行业层面解决数据问题前，这都不是什么太大的问题。

从更具体一点的角度来说，有没有问题还是得要看这个 LLM 到底是干什么的。比如如果是学了一堆文章数据，然后就拿去大量生成同类文章，那当然会有侵犯训练数据中涉及到的文章版权的问题；但如果训练后是用来识别文章内蕴含的信息，比如情感分析、关键词提取之类的，那没什么问题，因为这中间必然涉及到对数据二次加工、创作，并且训练出来的模型也没有侵犯原作者的利益，只是对公共数据的合理使用罢了。

还是那句话，爬虫本身只是个工具，怎么用、违不违法是人的问题。

MEIerer

2024-02-01 09:38:01 +08:00

@996bujiaban #4 好像如果是公司下的命令，员工无责的吧
@wzhpro #2

bigfei

2024-02-01 09:49:54 +08:00

爬虫可以干到 55 岁，每天都很忙

iSpy

2024-02-01 23:02:44 +08:00

@locoz 感谢前辈写这么多，很有启发♥️

iSpy

2024-02-01 23:31:41 +08:00

@bigfei 不知道该庆幸还是恐惧

skoia

2024-02-05 13:37:14 +08:00

op 去这个岗位了吗，感觉那边怎么样