V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  metalvest  ›  全部回复第 27 页 / 共 33 页
回复总数  643
1 ... 19  20  21  22  23  24  25  26  27  28 ... 33  
@metalvest 比如
```python
import requests
from bs4 import BeautifulSoup
import os

# 定义已下载的 URL 集合和有序的网页内容列表
downloaded_urls = set()
pages = []

# 定义递归函数来遍历整个网站的树状结构并提取文本内容
def scrape_website(root_url, url):
# 检查链接是否以根路径开始或者是否与根路径相同
if not url.startswith(root_url) or url == root_url:
return

# 检查该 URL 是否已经下载过,如果是则跳过下载
if url in downloaded_urls:
return

# 发送请求获取网页内容
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# 提取网页标题和正文内容
title = soup.title.text.strip()
body = soup.body.text.strip()

# 将该网页的标题和正文内容添加到有序的网页内容列表中
pages.append((title, body))

# 将该 URL 添加到已下载的 URL 集合中
downloaded_urls.add(url)

# 递归遍历子页面链接
for link in soup.find_all('a'):
href = link.get('href')
if href.startswith('http'):
scrape_website(root_url, href)
elif href.startswith('/'):
scrape_website(root_url, root_url + href)

# 指定网站根路径
root_url = 'https://www.example.com/'

# 发送请求获取根路径的网页内容
response = requests.get(root_url)
soup = BeautifulSoup(response.content, 'html.parser')

# 从根路径的网页标题中提取文件名
root_title = soup.title.text.strip()
output_filename = root_title + '.txt'

# 调用递归函数来爬取整个网站的树状结构并保存文本内容
scrape_website(root_url, root_url)

# 遍历有序的网页内容列表并将内容合并为一个线性的文本文件
with open(output_filename, 'w') as f:
for title, body in pages:
f.write(title + '\n\n')
f.write(body + '\n\n')
```
能不能加个把某网站的树状文档比如软件指南或者编程参考这种按目录递归遍历下载到本地然后拼接成一个文本文件的功能,就可以当互动指南用了
如果只是为了用,其实很多情况问问 chatgpt 就解决了
2023-04-06 21:20:59 +08:00
回复了 kouhe3 创建的主题 开源软件 一个不会永久保留历史记录的开源社区软件
另外 windows11 可以直接 win+r 安装
winget install --id Aether.Aether --exact --source winget --accept-source-agreements --force
2023-04-06 21:17:05 +08:00
回复了 kouhe3 创建的主题 开源软件 一个不会永久保留历史记录的开源社区软件
这个特点是由它的设计决定的,这个社区没有服务器,所有的内容都在客户端节点之间分布式存储
2023-04-06 14:59:51 +08:00
回复了 yisier 创建的主题 程序员 卖掉了经营 3 年多的副业
@jiezaichan 一个常用的估算用出价公式如下:

出售价格 = (未来现金流 / (1 + 贴现率)^n) + (可变价值 - 可变费用) / (1 + 贴现率)^n

其中,未来现金流指未来若干年内产品能够带来的现金流收入,n 为未来现金流的持续年数,贴现率是用于折现未来现金流的利率,可变价值指与该产品相关的其他价值,可变费用指与该产品相关的其他费用。

此公式可以帮助企业估算在未来持续若干年内该产品的经济价值,然后根据估算结果来制定出售价格。注意,公式中的贴现率要基于特定的市场和风险情况来确定,因此需要根据具体情况进行调整。
2023-04-06 14:26:29 +08:00
回复了 abcfreedom 创建的主题 程序员 求推荐好用的 chatgpt 安卓客户端
play 商店里有个 AMA ,没广告,中文是问天
https://play.google.com/store/apps/details?id=com.bytemyth.ama
最好加个界面能够加载和管理之前已经上传过的文档
EPUB 也是要手动安装,是不是都加到 requirements.txt 里比较好?
File: Error: PyPDF2 is required to read PDF files: `pip install PyPDF2`
2023-04-06 09:35:19 +08:00
回复了 calmzhang 创建的主题 程序员 web 开发哪里能接到外包, 像程序员客栈那些真的能接到吗
replit 赏金任务
2023-04-05 14:28:18 +08:00
回复了 realyujie 创建的主题 OpenAI 使用 Vercel 一键部署自己的 ChatGPT
@WinG 目前为止这一个是这些网页版里功能最强大的,当然 huggingface 上还有更强大的
搞个扩展坞,把手机接显示器键盘鼠标
以下两个帖子研究一下吧
https://www.zhihu.com/question/325025948
https://post.smzdm.com/p/aekw0033/
ADB ?前提是屏幕坏之前已经用开发者模式把这功能打开了。
2023-04-04 09:35:32 +08:00
回复了 xianwei10000 创建的主题 分享创造 星空-你的远程访问管家
你网站上的文档咋回事?自己读一下

星空-远程访问可以为企业节省 90%的组网成本容易发生单点故障所有通信都依赖于中心服务器;一旦中心服务器出现故障,整个网络就会瘫痪可靠提升了可容错性,即使中心节点宕机一段时间也不影响各个客户端的通信缓慢所有客户端的数据都要通过中心服务器转发,通信质量取决于中心服务器的带宽和处理能力;所有节点共享此带宽,很难有流畅的体验快速省去了不必要的中转路径,直接通信容纳客户端有限因为所有节点流量都依赖中心服务器转发,服务器的性能限制了能容纳的客户端数量容纳更多的客户端因为只有握手通信,一台中心服务器可以服务的客户端大大增加,一台服务器可以接入上万个设备扩展麻烦加入新的中转服务器,需要手工对每一台客户端参数调整;另外各个中转服务器之间也很难互通可以无缝平行扩展可以就近部署多个服务节点共享握手包,每台客户端自动选择最近的服务器中转
建议先做成 UE 或者 Unity 的插件上架资源商店回一波血
2023-04-02 16:10:26 +08:00
回复了 JYL888 创建的主题 问与答 有没有把速干衣当秋衣、内衣穿的兄弟?
有动手能力的可以把领子剪了
2023-04-02 16:04:21 +08:00
回复了 Pi10t 创建的主题 广州 准备去广州玩,求推荐一些好吃的
省人民医院斜对面,穗银肠粉。银记肠粉里较正宗的一家,比地铁站旁边那家荔银肠粉好得多。
另外文生图好像只是搜索现有图片而不是 AI 绘画?
1 ... 19  20  21  22  23  24  25  26  27  28 ... 33  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2795 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 29ms · UTC 06:59 · PVG 14:59 · LAX 22:59 · JFK 01:59
Developed with CodeLauncher
♥ Do have faith in what you're doing.