如何纯前端实现爬虫

2020-04-15 11:36:54 +08:00

easylee1996

不通过后端的服务器，相当于用户每次访问网页，在前端爬取数据后，再上传到后端，每次使用用户的 ip 。当然需要告之用户，类似做一个更新最新数据的按钮，用户自己点击，然后再爬取数据。

5551 次点击

所在节点

26 条回复

ajaxfunction

2020-04-15 17:36:31 +08:00

先搞清楚这个爬虫是你自己用还是给用户用

要是你自己用咋也好说，浏览器插件扩展脚本都行

如果是给用户用，那么浏览器就限制死了，无法发起跨域操作，你总不能让用户去安装扩展脚本这些吧？

netnr

2020-04-15 17:49:24 +08:00

爬取行政区域，基于浏览器

https://github.com/netnr/zoning

需要跨域可以加一个代理，参考：netnr/workers 或 netnr/proxy

netnr

2020-04-15 17:52:43 +08:00

再一个例子，域名备案查询，直接在浏览器发起站长之家的链接，匹配 HTML 提取关键内容

https://ss.netnr.com/icp

Tink

2020-04-15 22:05:01 +08:00

你跨域了

iX8NEGGn

2020-04-15 22:26:36 +08:00

@netnr 可是，加代理了走的不就是代理的 ip 了吗，楼主想用户的 ip 。同源策略，跨域，看来楼主想多了

angryfish

2020-04-15 23:25:52 +08:00

浏览器是不行的。安卓，ios 这些 app 是可以做到的

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.