有没有大佬会爬虫的，有一个需求想请教一下

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 398 天前的主题，其中的信息可能已经有所发展或是发生改变。

帮一个朋友转发：

大家好！！！计算机纯小白，自媒体行业从业者，希冀实现以下诉求：做一个能搜集文案，并给我自动二创文案的软件，每个月搜集三十篇。在收集文案、二创文案这个环节实现自动化。想问问大家，小白利用 gpt 来学习制作爬虫实现这一诉求，学习成本非常高昂吗？有能力制作这个程序的朋友也欢迎报价。

爬虫

GPT

自动化

16 条回复 • 2024-12-10 16:35:58 +08:00

PbCopy111

2024 年 12 月 10 日

我感觉你要是连这个问题都不用大模型回答的话，可能不是学习成本的问题了，先好好上学吧。

以下回复来自 kimi：

您好！看起来您希望开发一个软件，用于搜集文案并自动生成二创文案，以实现自动化。对于您的问题，我提供以下建议：

1. **学习成本**：
- 如果您是计算机纯小白，学习制作爬虫可能需要一定的时间和努力。爬虫技术涉及到编程语言（如 Python ）、网络请求处理、数据解析等知识。如果您打算自学，可以通过在线课程、教程和社区论坛逐步学习。学习成本取决于您的学习能力和投入时间。

2. **利用 GPT**：
- GPT （ Generative Pre-trained Transformer ）是一种预训练语言模型，可以用于生成文本。对于自动生成文案，您可以考虑使用 GPT 或类似的模型。这些模型通常需要大量的数据训练，并且可能需要一定的技术知识来调整和优化。

3. **自动化软件**：
- 开发一个完整的自动化软件涉及到前端（用户界面）、后端（数据处理和存储）、爬虫（数据搜集）等多个部分。如果您不熟悉编程，可能需要聘请专业的开发人员来帮助您。

4. **报价**：
- 对于有能力制作这个程序的朋友报价，这取决于项目的复杂度、开发时间和所需的技术资源。您可以联系专业的软件开发公司或个人开发者，提供您的具体需求，以便他们能够为您提供准确的报价。

5. **其他建议**：
- 您可以考虑使用现有的文案生成工具或服务，这些工具可能已经集成了爬虫和文案生成功能，可以更快速地满足您的需求。

如果您需要进一步的帮助，比如寻找学习资源、了解开发成本或者寻找开发人员，我可以为您提供更多的信息和建议。

YJi

2024 年 12 月 10 日

写个爬虫一个月爬 30 篇文案，你不如人工去复制粘贴啊。有的平台反爬还挺严重的。（但从你发出来的信息来看，我感觉不是很难）

YJi

2024 年 12 月 10 日

@YJi 我感觉比较不好衡量的是二创的文案质量能不能达到你朋友满意。数据是小事情。

adimn

2024 年 12 月 10 日

1. 搜集文案 2. 二创

1 简单， 2 只有把这些文案发给 gpt 让他给我答案

tthem

2024 年 12 月 10 日

@PbCopy111 他是想请人来做，我认为纯小白学习起来会遇到很多困难，未来不走技术路线的话不如直接花钱

tthem

2024 年 12 月 10 日

@YJi 有数据，就 ok 了，二创是次要

tthem

2024 年 12 月 10 日

@ma836323493 主要是 1

adimn

2024 年 12 月 10 日

@tthem #7 #7 1 不难吧，搜集文案，看你去哪些平台搜，我知道的小红书有现成 api ，其他平台的话最不济也能 playwright 截图 ocr 识别把

YJi

2024 年 12 月 10 日

@tthem #6 要啥平台的数据，我这里有。

coderluan

2024 年 12 月 10 日

这事取决于你要爬的平台，有的平台反爬严格，你不光需要技术，还得有对应的资源才能爬。有的反爬简单，你简单学一下 html ，然后 F12 能打开页面找到 Dom ，然后直接发给 gpt ，让它给你用 scrapy 生成对应的爬虫就行了。

drush

2024 年 12 月 10 日

洗稿就算了，还要自动化 [手动狗头

wnpllrzodiac

2024 年 12 月 10 日

面向监狱编程的技巧不好学习啊。真是。

tthem

2024 年 12 月 10 日

@YJi 图片挂了，大佬可以加一下我朋友 RnJhbmsxMHc=

YJi

2024 年 12 月 10 日

@tthem #13 已加莫辜负哈哈，图片是表情包

NoOneNoBody

2024 年 12 月 10 日

你这个量(约每天一篇)根本就不是爬虫
说到底这个每天一篇是筛选后的结果？如果目标很明确不需要人工筛选，那写个小脚本自动访问就可以了，类似自动签到的脚本；但如果目标不明确，要在一堆海量文章选 30 篇，这个才需要爬虫，但这个筛选过程就异常的难了，自动化的话需要可能上百个条件做判断，还是说筛选过程就交给 AI ？人工筛选？

第二步将 30 篇归纳概括为最终一篇文章，这个用 api 倒不是难事，如果想本地实现，那花费就不是“小白”承担得起的

个人建议先确定这 30 篇怎么来，容易获取可以 gpt 帮忙写个小脚本，需要海量后筛的就付费请人吧

xiaopapa

2024 年 12 月 10 日

不难，爬虫的难是大量爬取必然触发反爬，你这直接 selenium 一把梭