想要爬的网站: https://crushon.ai/character/7e388767-63c7-45e3-b922-53458b4ae4f7/chat
一直请求 403 ,难受,搞不定,用无头 playwrihgt ,又不过 cloudflare ,请求又被拒绝,难搞!
想请教一下 v2 的各位佬,怎么爬这个网站聊天对话。
![]() |
1
peteretep 45 天前 ![]() 你应该发到程序员版面 《恕我直言,用 websocket 发送对话,根本没有人能爬到我的内容 》
|
![]() |
2
lisxour 45 天前 ![]() 你发外包我可以接
|
![]() |
3
irrigate2554 45 天前
看你这个描述,不是卡在 ws 而是卡在过不了 cf
|
4
cbythe434 45 天前
有头手工点 cloudflare
|
![]() |
5
evan1 PRO 我有个办法,别用无头,用有头。手动过下 cf ,然后程序自动爬。
|
![]() |
6
rabbbit 45 天前
NSFW 警告,不要看首页
|
7
coderzhangsan 45 天前
😮,websocket 也能爬?如果能爬,那基于 TCP 协议的应该都能爬吧?
|
![]() |
9
musi 45 天前
用 electron 开 cdp 监听 ws
|
![]() |
10
xiaoming1992 45 天前 via Android
@rabbbit 你跟我看的是一个首页吗?哪有 NSFW ,都是穿得严严实实的印度大妈和卡通人物
|
13
march1993 45 天前
用 chrome 打开,然后打开 inspector network 页,右键复制 curl(cmd/bash),这种基本可以下载下来
|
![]() |
14
lyusantu 45 天前
@xiaoming1992 你登录了吗
|
![]() |
15
lyusantu 45 天前
@xiaoming1992 登录解锁
|
![]() |
16
JoryJoestar OP @peteretep 你是懂程序员的
|
![]() |
17
JoryJoestar OP @musi 我试试,谢谢🙏
|
18
249239432 45 天前
@coderzhangsan 看页面源代码解析逻辑,可以爬
|
19
drymonfidelia 45 天前
@coderzhangsan 不能爬网站是怎么显示的?你能看到的东西都能爬
|
20
991547436 45 天前
playwright 这样过 cf
Browser browser = playwright.chromium().launch(new BrowserType.LaunchOptions().setHeadless(true) .setArgs(List.of("--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36")) ); |
22
alexchen7 45 天前
建议你看看 browser use 项目。
|
![]() |
23
nomagick 45 天前
|
![]() |
25
ooTwToo 44 天前
指纹浏览器
|
![]() |
26
ShineyWang 41 天前
这个应该能过 CF 盾
https://github.com/FlareSolverr/FlareSolverr |
27
huangpingdong 39 天前
@peteretep 怎么大胆,抖音弹幕都有人能爬 websocket 加密的还是
|
28
huangpingdong 39 天前
@peteretep 怎么大胆,抖音弹幕都有人能爬 websocket 加密的
|
![]() |
29
JoryJoestar OP @991547436 牛的
|
![]() |
30
JoryJoestar OP 搞定了,用的有头 playwright ,手动过 cloudflare ,还可以吧,只需要确认一次就行
|