happytaoer 最近的时间轴更新
happytaoer

happytaoer

V2EX 第 593396 号会员,加入于 2022-09-04 23:28:06 +08:00
happytaoer 最近回复了
这是我做的第八个渣渣项目,对标 google mymaps 。。。

我的建议是想到 30%就可以开始干了,至于成不成功不要太在意。。。

https://trailnote.co/shared/03f0f481c8da27c5d45328ffbf740a7d
要这么多钱? windsurf 免费 token 直接解决
11 天前
回复了 happytaoer 创建的主题 Python Python 爬虫微框架 web-craft
@czl777 内部的爬虫是自定义的。
12 天前
回复了 happytaoer 创建的主题 Python Python 爬虫微框架 web-craft
@fkdtz 对实际就是抽象了一个架构,对外提供 API ,对于那种成规模爬虫可以使用,如果是单独爬一个用这个没啥意义。后面的方向就是通过提供清晰的接口来提供 AI 爬虫代码的生成。
12 天前
回复了 happytaoer 创建的主题 Python Python 爬虫微框架 web-craft
@justtokankan 大佬,这得爬虫里面自己连代理,框架不处理代理
12 天前
回复了 happytaoer 创建的主题 Python Python 爬虫微框架 web-craft
@rev1si0n 对,目前有这个接口的实现。可以自定义 header request ,自定义 parse ,甚至于入库自定义。这个项目主要的意义其实不是用来写单个爬虫,而是成百上千个爬虫,提供对外的聚合查询服务。
12 天前
回复了 happytaoer 创建的主题 Python Python 爬虫微框架 web-craft
@BingoW 比 scrapy 还轻量。大部分爬虫只需要实现 parse 方法即可得到支持 API 的爬虫系统。并且对 AI 编写爬虫特别友好。未来的开发思路是精简为主,完成核心功能,提供 AI 快速集成。

from typing import Dict, Any
from ..core.base_spider import BaseSpider


class DefaultSpider(BaseSpider):
def parse(self, raw_content: str, url: str, headers: Dict[str, str]) -> Dict[str, Any]:
return raw_content
63 天前
回复了 AndyChina 创建的主题 职场话题 远程工作, 可能并没有想象的那么好
我已经远程 5 年多了。我的具体经历和感受可以看这篇帖子:
https://eleduck.com/posts/R3fO5L
72 天前
回复了 Bullish 创建的主题 职场话题 上班空闲时间都是怎么摸鱼的?
冥想。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1336 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 00:00 · PVG 08:00 · LAX 17:00 · JFK 20:00
♥ Do have faith in what you're doing.