帮朋友找个有爬虫,数据处理经验的人,远程兼职就可以。

2023-03-13 09:59:04 +08:00
 ShadowFiendYan

朋友公司业务上遇到瓶颈,原有的数据爬取不是很精准,爬到数据很多重复内容。 想找个有这方面经验的人帮忙解决问题。

有兴趣的老哥可以加绿色软件:TXNwb3dlcndhbmc=

2998 次点击
所在节点    酷工作
27 条回复
jstony
2023-03-13 10:11:07 +08:00
肯定刑
sherlockwhite
2023-03-13 10:11:18 +08:00
肯定刑
mastcer
2023-03-13 10:15:46 +08:00
必须刑
xixibb
2023-03-13 10:18:56 +08:00
楼上几位说刑的是啥意思?不让爬数据吗 ?
yaoliyc
2023-03-13 10:20:35 +08:00
爬虫写的好
colinzhao
2023-03-13 10:30:03 +08:00
牢房蹲到老
x86
2023-03-13 10:31:48 +08:00
@xixibb #4 即便的互联网上公开的数据也不是说随便爬的,一搞一个准太多案例了
herozzm
2023-03-13 10:50:10 +08:00
刑的话 今日 x 条是不是牢底坐穿了
aeli
2023-03-13 10:52:10 +08:00
@herozzm 你爬下今日头条的数据试试,看看他们的法务会不会让你刑。

人家是有靠山的爬,和你去打工的一样么
fiypig
2023-03-13 10:52:36 +08:00
重复内容就加个中间件做筛选不就可以啊
ShadowFiendYan
2023-03-13 10:53:19 +08:00
这个东西感觉没有清晰边界, 欲加之罪何患无辞。就跟快播一样。 各位老哥自己斟酌哈。 话说如果真追究,是开发人员担责,还是公司法人担责呢。
ShadowFiendYan
2023-03-13 10:54:40 +08:00
@fiypig 公司技术不行,他们公司是在小城市。 技术上解决不了重复数据问题了, 哈哈
herozzm
2023-03-13 10:59:10 +08:00
@aeli gov 现在都强调资源数据共享,先搞清楚爬的什么吧,万一 op 公司就是有背景,而且是爬的公开合法数据呢,以来就 “刑”也是太绝对了
herozzm
2023-03-13 11:00:01 +08:00
@ShadowFiendYan 爬过的加入 redis 记录,做一下数据清洗和筛选,入库的时候针对几个关键点做一下比对基本就行了
abcbuzhiming
2023-03-13 11:07:49 +08:00
@herozzm 今日头条是多大的背景?你有多大背景?人家被抓住了有整个律师团队可以搞庭外和解,你的背景做得到吗?
abcbuzhiming
2023-03-13 11:11:44 +08:00
@ShadowFiendYan 你的法律知识应该更新,法律边界非常清晰:

爬一切没有得到 [授权] 的数据都是非法的!!!
爬一切没有得到 [授权] 的数据都是非法的!!!
爬一切没有得到 [授权] 的数据都是非法的!!!

明白吗?都是非法,授权给你的数据还需要你去爬吗?你直接找数据持有方拿硬盘拷不方便吗?还是说你是和百度一样专业做搜索引擎的?能严格执行爬虫 bot 协议?

另外法律早就定的很清楚,法人逃不掉,做开发的程序员一样要完蛋。就看对面搞不搞你,一旦搞你,证据到位的情况下一搞一个准
abcbuzhiming
2023-03-13 11:17:21 +08:00
@ShadowFiendYan 大量出现重复数据其实就是已经被发现定位了,人家的技术团队针对性的在吐伪装数据给你,识相点要么自己收手,你继续对抗下去,对面肯定会准备线下搞你的。

爬虫和反爬在现在国内环境下已经是政治问题,不要以为用技术能解决政治问题,这是很多技术人员的错觉。
sadfQED2
2023-03-13 11:19:48 +08:00
提供一个参考,蛋壳以前爬自如的数据,自如发现以后报警。产品经理跟研发都进去了,按时间算最近应该快出来了。
abcbuzhiming
2023-03-13 11:24:48 +08:00
@herozzm 你的法律知识应该更新:
公开数据,不等于授权数据。明白吗?人家数据是公开的,但是人家那是在特定条件下的公开,比如,web 访问,app 访问,不代表允许你拿爬虫去爬。更进一步,搞清楚 [授权] 的概念,那些搞爬虫的公司,把别人的数据拿回来干嘛的?自己心里没点数吗?只是看看而已?不见得吧,爬虫最危险的问题,就在于你拿了别人的数据,做了什么,这几乎是所有被判刑的爬虫人员最后无法抵赖的,人家没授权你用它的数据干这个,你干了,等死,尤其这一点是很多干爬虫的程序员完全控制不了的——他们往往就傻乎乎的帮人把数据采集了,人家转头把数据干了非法的用途,程序员是要背锅的。为啥前面那么多说 [肯定刑] 的,这 tm 都是血的教训,程序员傻乎乎的写代码,结果出事了立刻就被卖了。

最后, [gov 现在都强调资源数据共享] 人家强调的是政务部门之间的数据共享,人家可不是允许你拿爬虫去爬人家的数据。
abcbuzhiming
2023-03-13 11:28:11 +08:00
最后,和楼主说一句,现在这个大环境还敢搞爬虫的,而且搞的技术还不错的,基本要么就是大公司的核心团队有法务保护的那种,要么就是黑产的,无论是哪一种,都不是楼主你随便在公开论坛能花点小钱请到的。普通的程序员现在还敢玩爬虫的,基本就是刚出来混没经验也没人教的愣头青。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/923498

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX