本文仅阐述心路历程及简要思路，以供学习 node.js 及网络安全相关知识，请勿过度解读或用于非法用途。

动机

在 twitter 关注了很多小姐姐，但是每隔一段时间就会有“退网”的，推文直接清空或禁止查看。
这个时候的我就会很懊悔没有提前保存好所有影像资料。

检索

然后就去网上找各种现成的工具，发现大部分都是基于 python 的，或者模拟滚屏解析 html 的；
继续检索发现 twitter 提供了开发者 API，但是要申请，并且现在申请成功率很低。

探究

于是观察了一下 twitter 媒体页面的加载方式，发现以下几点：

xhr 中显然存在着关于推文的直接 http 请求，且有推文数量参数
滚屏瀑布加载的起点为当前最后一条推文数据中的标记字段
请求到的推文数据直接包含了图片和视频的 uri 地址，其中图片尺寸可通过修改 query 参数控制
twitter 关于 cookie 的校验非常松
twitter 对资源的并发数量有限制
开整吧那就

思路

环境及工具：node.js, node-fetch, request, http-proxy, fs
流程：键入某 twitter 用户名 -> 先请求到 media 数量 -> 将数量修改至 media 请求的参数中 -> 发起 media 请求 -> 解析返回 json 中的资源 uri -> 下载资源到本地

优势

只需要一个 node.js ，不用登录 /py 环境 /headless 浏览器
代码简单，业务逻辑只需两三百行 js
性能优秀，两次毫秒级请求取到所有 uri，具体资源下载速度由带宽决定

结果

npm run download xxx 将 xxx 用户的所有最大尺寸图片和视频资源到本地
npm run update 更新./Medias 目录下所有已存在用户的推文资源

kdwnil

2021-08-23 23:16:24 +08:00

@ybnsjl 这个 Bearer 是固定的，而且已经用了很多年了，至于那个 twint，用的是旧的搜索接口，同一个 guest-token 剩余次数是在返回头的 header 体现（ x-rate-limit-remaining，timeline 是 180 请求 /15 分钟），刷新 guest-token 会重置，但长期超限会随缘丢 429 。
目前 timeline 的 api 限制只能获取最新的 800-900 条推文，再往下就空白了，老外们研究出用高级搜索绕，我就好奇楼主用了什么思路来突破这个限制，想学习个思路，结果这贴发出来也没更新，GitHub 的库只有个 readme，就很尴尬了

分享一个 node.js 纯 http 请求的 twitter 爬虫思路

本文仅阐述心路历程及简要思路，以供学习 node.js 及网络安全相关知识，请勿过度解读或用于非法用途。

动机

检索

探究

思路

优势

结果