有没有什么方便的网页抓取工具

2020-11-17 10:18:46 +08:00
 shaoyijiong

现在有个需求, 需要把类似的如下两个外部链接转化成公司域名的短链接, 并且加入埋点消息, 现在都是前端手动转,但是页面太多, 人工太浪费时间, 有没有方便的工具来直接转成 html 页面

https://csydtg.1tk7z.com/r/ee/21066.html

https://csydtg.1tk7z.com/s/11/3148/52fd0.html?uid=9160000000810

请忽视页面内容,合作方没办法

1594 次点击
所在节点    问与答
8 条回复
shaoyijiong
2020-11-17 10:19:58 +08:00
最好能够输入链接自动跑成 html 的那种
lllllliu
2020-11-17 11:07:04 +08:00
。。写个爬虫哦。或者右键另存( w
locoz
2020-11-17 11:15:14 +08:00
单纯保存页面 HTML 的话,可以直接用八爪鱼之类的傻瓜式爬虫工具或者 fdm 之类的下载器解决。

但是你们这个需求有点奇怪啊,为啥不直接做个跳转页,然后在跳转页里面加上埋点?反正你们都要弄短链接了。
shaoyijiong
2020-11-17 11:18:20 +08:00
@locoz 如果只监听点击是可以 , 但是页面里面有下载链接 要获取下载数据量
siknet
2020-11-17 11:18:38 +08:00
没听懂,需要下载页面后加入内容然后上传到自己服务器上?
locoz
2020-11-17 12:14:55 +08:00
@shaoyijiong #4 那直接用 Nginx 做个反代,然后往里插埋点?反正你们都要存别人页面下来了。
locoz
2020-11-17 12:17:16 +08:00
@shaoyijiong #4 用 ngx_http_substitutions_filter_module 提供的功能可以做到修改原页面中特定内容的效果,可以直接把下载链接那部分给加上埋点。
qshu
2021-02-17 08:17:21 +08:00
好家伙,我收到了骚扰短信,什么新春提现,附的连接就这,艹

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/726059

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX