ChatGPT 写爬虫 YYDS,三句话写完爬虫代码,再也不用自己写正则表达式了。

2023-03-23 21:20:07 +08:00
 1722332572

作为一个曾经的爬虫爱好者,最讨厌写获取各种元素的正则表达式了,或者在一堆元素中筛选需要的内容。

ChatGPT 它来了,三句话搞定,第一句获取所有文章列表,第二句,获取一篇文章标题和内容,第三句设计数据库并写入。

魔法开始,图片无法正常显示用链接代替了。

第一句获取 http://chatnews.cn/ 所有文章列表

http://chatnews.cn/wp-content/uploads/2023/03/WechatIMG504.jpeg

获取一篇文章标题和内容

http://chatnews.cn/wp-content/uploads/2023/03/WechatIMG505.jpeg

设计数据库并写入 也不是完全没缺点,比如,机器人偶尔会挂掉,数据库读写部分,可以参考如下推文:

https://mp.weixin.qq.com/s/IYsGsnGTzvhn-97F1twKrg

整体表现,非常丝滑,强烈推荐。

2224 次点击
所在节点    OpenAI
7 条回复
herozzm
2023-03-23 21:22:42 +08:00
真正商业爬虫 都是尽量避免用正则,比如用 jquery 类方法抓取
rimworld
2023-03-23 21:23:35 +08:00
应该是他的资料里有爬取过这个网页的代码吧?要不然他怎么知道用选择器选择"h4 a"的
ila
2023-03-23 21:25:27 +08:00
哪三句话?
ospider
2023-03-23 21:28:06 +08:00
看了下楼主主页,全是推广帖子……
WinG
2023-03-23 21:31:55 +08:00
楼主的套利和量化战绩如何了?
1722332572
2023-03-23 22:22:09 +08:00
@ila 第一句获取所有文章列表,第二句,获取一篇文章标题和内容,第三句设计数据库并写入。
cherryas
2023-03-24 12:23:46 +08:00
恭喜你学会了爬虫,现在在是请爬取这个有 Akamai 的网站把

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/926655

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX