[爬虫] 请教大家爬取小红书、抖音的内容(包括图片、视频)的方法

172 天前
 xiguaprince
请问大家有什么帖子教程可以知道小白爬取小红书和抖音的内容吗?

或者哪位大佬指点下用什么工具可以简单稳定的爬取内容呢?


[抛砖引玉]

我能想到的最稳定的方式是:
在浏览器或者手机端,使用脚本或者什么工具模拟手动点击,然后通过 ocr 或者 dom 提取图片、文本等信息

但是这种方式怎么获取视频文件,我不太清楚。。。
也不太清楚具体怎么模拟手动点击。。。

我这种方式是不是太绕了
2747 次点击
所在节点    程序员
14 条回复
9c04C5dO01Sw5DNL
172 天前
收手吧,阿祖
seers
172 天前
逆向 native ,找到 sign ,然后为所欲为
xiguaprince
172 天前
@giiiiiithub 哈哈哈哈哈 https://zhuanlan.zhihu.com/p/66997586 会时常阅读这个文章的!!
xiguaprince
172 天前
@seers 不太懂逆向这一块,感觉很高端,可以详细说下吗!!!
IDKAFK
172 天前
xiguaprince
171 天前
@IDKAFK 这个可能是我需要的!!!
Midnight
171 天前
钓鱼?
duan602728596
171 天前
douyin 爬虫的最大问题是验证码。
小红书爬虫的最大问题是验证码和加密算法会检查是不是无头浏览器。
gransh
171 天前
抖音我用的这个 https://github.com/Johnserf-Seed/TikTokDownload 还是挺傻瓜式的。小红书目前还没找到方法。
喜欢收藏小姐姐能有什么错呢?
gransh
171 天前
至于你发的那篇文章,它在理论研究栏目而不是通知通告栏目。。。。
Aicnal
171 天前
这可太刑了,感觉这两个公司都挺强硬的,还是小心点
zanx817
171 天前
爬没问题, 另外也可以主动交保护费。
xiguaprince
171 天前
@gransh 喜欢收藏小姐姐能有什么错呢?
xiguaprince
171 天前
@gransh 楼里有人推荐这个 https://github.com/NanmiCoder/MediaCrawler
其中有小红书

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1048151

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX