V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  cowcomic  ›  全部回复第 7 页 / 共 8 页
回复总数  143
1  2  3  4  5  6  7  8  
2022-12-17 10:31:34 +08:00
回复了 hongchaodeng 创建的主题 程序员 年终盘点: 2022 不容错过的 20 个开发者工具
挺好的,有几个正好需要
2022-11-26 20:06:53 +08:00
回复了 xuAN111 创建的主题 程序员 我这个爬虫是否违法?
可以从两个维度来衡量

数据公开维度:
首要考虑数据是否是客观意义上的公开数据,还是面对特定人群的。某电商的商品信息就是公开数据(即使是登录才能看也算是公开的,因为并没有对登录后的身份做区别限制,也没有对注册做限制),但商家后台的订单信息就是面对特定人群的。面对特定人群的爬虫行为一定涉及侵权(无论是否商用,哪怕自己只是归档存储也会认定)
公开数据再考虑对方 robots 协议是如何制定的,这部分的约束性稍微较弱,不遵守并不会一定被认定侵权,所以很多大公司的爬虫的确也不遵守,是有隐患的(如果有很明显的商用,那就会惹麻烦,只要不商用,通常会被睁一只眼闭一只眼)

系统影响维度:
这个就简单了,就看爬虫会不会影响目标站点的正常运行,只要有比较大的影响,不管在数据公开维度是否有问题都会被认定侵权。以前采过一个地方网站,采集内容都是公开的信息,但是没控制好并发,把这个网站采挂了,那该负责任负责任,没啥说的
2022-10-27 18:24:49 +08:00
回复了 itechnology 创建的主题 程序员 被刚转正的测试弄的不厌其烦,求各位支支招
真挺好的,认真负责
2022-10-11 00:04:10 +08:00
回复了 kestrelBright 创建的主题 程序员 求教 mysql 表设计
如果只是用来进行还款记录和逾期搜索,第一种就能满足,觉得不太好的原因是还有别的业务吗?
2022-09-17 19:01:46 +08:00
回复了 e1o 创建的主题 Java 想请问下关于 ThreadLocal 的使用
2022-09-13 22:16:04 +08:00
回复了 mantis 创建的主题 PHP 一个字符串拆分问题
词表有多大?
如果词表很大,百以上,可以上一些 NLP 技术,比如 Trie 树,做词表扫描,再根据扫描结果分割
如果词表不大,几十以内,for 循环和正则都可以
2022-08-03 18:32:40 +08:00
回复了 Red998 创建的主题 程序员 大佬们:请教一个 es 批量更新数据问题
从官方文档上看,update-by-query 就会更新所有命中的数据,只不过可以通过 scroll_size 来设置滚动大小
通过 max_docs 参数来设计最多改多少数据,如果不设置就是默认全部数据
2022-08-03 18:18:21 +08:00
回复了 cocong 创建的主题 程序员 请问 Windows 多桌面怎么设置快捷键切换到指定的桌面?
windows 可以用 win+tab 来呼出类似 mac 四指上推的效果
2022-07-06 18:24:33 +08:00
回复了 shangwuli 创建的主题 程序员 程序员们,你们有走 PDCA 循环吗?帮忙给个建议
@shangwuli 整个 scrum 其实就是一个 PDCA 循环,scrum 的复盘阶段总结上一个 scrum 的问题,怎么在后面的 scrum 避免。重点是复盘的时候是不是能分析到真正的原因,比如 BUG 多,不能简单的增加测试,增加单元测试,为什么会测试不好,可能是测试没有参加需求评审,为什么没做单元测试,可能是研发时间不够挤占了单元测试时间,那后面就需要安排全员参加需求评审,研发需要专门留出写单元测试的时间
2022-03-27 14:53:12 +08:00
回复了 unco020511 创建的主题 程序员 关于 git 工作流我有个小疑问(冲突在本地还是远端解决)
1 提交代码要保证合并的正确性和正常运行
@leeuu 现在遇到的问题就是不知道如何获取编辑好的
友盟解决
2021-10-19 15:54:44 +08:00
回复了 cowcomic 创建的主题 酷工作 [北京] C 端产品寻找安卓、iOS、前端牛人
自己顶上来,寻找有缘人
2021-03-19 18:18:25 +08:00
回复了 Umenezumi 创建的主题 问与答 公司征集一段代码印制在 T 恤上,过来取经了, 送键盘
find / -name '*annoyance*' | xargs rm -f
2021-03-17 09:09:08 +08:00
回复了 wangw 创建的主题 问与答 请问关于家里网络的问题。
书房网口都已经连上了,做个 AP 扩展无线信号,现在大部分路由器都支持这个功能
凡人修仙传
从前有座灵剑山
元龙
@abersheeran 是的,这块我记错了,服务端没有端口数量限制,只取决于 CPU 内存资源
2021-02-13 20:20:58 +08:00
回复了 noobma 创建的主题 程序员 如何简短表述“适用每周中的几天”
给他一个 cron 表达式
有多少并发啊,一台 linux 服务器能提供 6 万多个 socket 连接,剩下的就是每个连接消耗的内存。如果 ws 长连接的并发已经到了万这个量级,那最好是用一个新域名专门处理
2021-02-02 13:51:57 +08:00
回复了 mekingname 创建的主题 奇思妙想 你愿不愿意以 1 元/小时/台的价格租借云服务器?
这就别跟云服务商比了,这就只能自己玩玩儿,谁敢在这个上面部署服务,阿里云华为云这类服务商的 SLA 都还要考虑多活的灾备。
自己玩玩实在贵
1  2  3  4  5  6  7  8  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5477 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 35ms · UTC 05:58 · PVG 13:58 · LAX 21:58 · JFK 00:58
Developed with CodeLauncher
♥ Do have faith in what you're doing.