V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  youngce  ›  全部回复第 1 页 / 共 24 页
回复总数  462
1  2  3  4  5  6  7  8  9  10 ... 24  
edge 自带的 copilot 不是已经有了这个功能了吗🤣只是国内用不了,你这个又是个出海产品
出生在这样的家庭,难道不比你上面说的那些苦?
27 天前
回复了 vopsoft 创建的主题 生活 初一的孩子不听话,何解
第一句哈,已经是答案了:我平时在京

都留守儿童了,孩子的成长不就是开盲盒吗?
44 天前
回复了 8eacekeep 创建的主题 Blogger 想看看大家的博客
https://ycfor.com

🤣🤣🤣
70 天前
回复了 stimw 创建的主题 Python pdm 还是 dev container?
我们这边无论是开发的时候用什么管理( conda 、venv 、poetry 、pyenv 、pdm...),最终打 dockerfile 必须提供 requirement.txt🤣 其实对于 pycharm 用户 conda 、venv 、poetry 的支持都很好了
国内直接用 easydl 应该是最简单的了,可以看一下
chagtgpt3.5 如是说道:

当使用 Selenium 访问网站时遇到 403 错误(禁止访问)通常是因为网站检测到了你的请求不是来自一个正常的浏览器用户,而是来自一个自动化脚本或机器人。为了解决这个问题,你可以考虑以下几种方法:

1. **使用合适的 User-Agent**:User-Agent 是 HTTP 请求头中的一部分,它描述了你所使用的浏览器和操作系统。有时候,网站会检查 User-Agent ,如果它看起来像是来自一个爬虫或机器人的话,就会拒绝访问。你可以设置 User-Agent 来模仿一个正常的浏览器请求。

```python
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36")

driver = webdriver.Chrome(chrome_options=options)
```

2. **使用代理**:使用代理服务器可以隐藏你的真实 IP 地址,有时可以帮助绕过 IP 封锁或访问限制。请注意,不要违反网站的使用政策或法律法规。

3. **减慢请求速度**:有些网站可能会检测到你的请求速度过快,从而认定你是机器人。你可以在 Selenium 中添加等待时间,模拟人类的浏览行为。

```python
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待元素可见
element = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.ID, "myElement"))
)
```

4. **使用 Selenium 的无头模式**:无头浏览器模式不会打开可见的浏览器窗口,这可能会降低被检测到的风险。

```python
from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(options=options)
```

5. **遵守网站的使用政策**:最重要的是确保你的爬虫或机器人不会滥用网站,遵守网站的使用政策和 Robots.txt 文件中的规则。

请注意,网站可以随时更改其反爬虫措施,所以你可能需要不断调整你的策略以应对这些变化。同时,确保你的爬取是合法的,不会侵犯版权或隐私等法律法规。
186 天前
回复了 fanym 创建的主题 问与答 强人工智能的实现代码量估计只有 0.65952MB?
其中人的 DNA 有效基因不会超过 10%,有很多没表达的基因——有效基因这种概念似乎不太合适,即使是不表达的基因本身也可能参与启动子、增强子、基因沉默区域,以及在遗传的过程中发生突变以后,也可以重新直接参与表达。

DNA 翻译成蛋白质会造成信息的损失——实际上不存在信息的丢失,反而在翻译过程增加了信息的复杂度,翻译过程中 rna 和蛋白质都有各种相互变化和作用,可以直接影响最后的基因功能

以及 3d 基因组、表观遗传这些东西,实际上也说明现代遗传学作为一门类似逆向研究工程,还存在大量未知的领域。
192 天前
回复了 xtx 创建的主题 机械键盘 淦,买了才三年多的 filco 键盘竟然坏了。
节哀🤣

——回复来自于 2018 产圣手二代双模红轴
203 天前
回复了 davinci21s 创建的主题 Python 求助: Python flask 应用内存一直在增加
@inzufu 这玩意一眼就是算法推理服务,nodejs 加载模型文件跑算法推理,你这不是难为算法同学吗?

这代码里面一眼看去就是模型资源全局变量跑,十几个并发,要是没有 gpu 没有显存,就是需要大内存的。再就是推理接口一般也都是 batch 推理,并发可以利用 batch 来缓解压力。

简而言之,要么懂算法、要么懂 python 后端,两者都不精通,算法服务能跑起来已经谢天谢地,就不要苛责性能了
203 天前
回复了 kldd529 创建的主题 武汉 国庆假期去武汉参加老婆的舍友的婚礼
江汉路逛完,尽头是一片老汉口街区也是可以逛逛,然后走到江滩看看江,然后坐个轮渡,到对面汉街再逛逛,汉街离武大、东湖也不远,逛完吃个宵夜👋
开发环境用 conda ,确定要用的包加到 requestments.txt 。部署的时候一个 dockerfile ,一行:pip install -r requestments.txt -i XXX.COM
不针对茅台。白酒是真的难喝呀
爬虫本质都一样,都是发出 http 请求得到想要的数据。
但面向的需求场景不一样,比如有这样的一个需求:
请采集维基百科特定分类下的所有主题页面,大概 700W 个页面,要求一周内交付数据?
- 首先:浏览器插件已经不在考虑范围内了,使用一个浏览器翻完维基百科,你等得了用户可能等不了
- 其次:纯 selenium 处理这类弱反爬的网站也没有什么优势了,且不说无头浏览器的速度慢,如果开 1000 个无头浏览器,一般的也需要海量的内存了。
- 剩下的就是爬虫代码自行编写了,用 scrapy ,或者自己造轮子最后实现类似 scrapy 的框架的功能,对接 ip 池来进行并发爬取。(中间也可能用到 selenium 搭配处理一些反爬策略)

用哪个?看需求吧:
- 海量数据+长期需求=自己写爬虫
- 少量数据+临时需求= 数据采集器搞一下交差
Linux 装个桌面,然后再装个浏览器,打开浏览器,然后 python 截取系统屏幕🤣类似 rpa 吧
216 天前
回复了 eatgrass 创建的主题 程序员 JetBrain 为啥不出家庭订阅服务
JetBrain 可能没有想到居然还有程序员世家的用户🤣
220 天前
回复了 08110920 创建的主题 问与答 cocopilot 的作者咋没了 库也不见了
之前看了一眼这个项目,就是写个脚本把一个 github copilot 的 token ,共享给所有人用。。。这项目还放在 github🤣等于直接贴脸开大,果然 github 马上就给 ban 了
跟上暴叔的节奏吧。资源和核心装备(英语),但是需要自己努力和家里支持,200 多分,如果花个一两年只卷英语,能够出国的还行
237 天前
回复了 qtxxm 创建的主题 程序员 求解决方案,大量埋点数据中的事件查询
硬算就是慢吧,好歹用一下 GIS 特性
1  2  3  4  5  6  7  8  9  10 ... 24  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3691 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 37ms · UTC 04:44 · PVG 12:44 · LAX 21:44 · JFK 00:44
Developed with CodeLauncher
♥ Do have faith in what you're doing.