如何纯前端实现爬虫

2020-04-15 11:36:54 +08:00
 easylee1996

不通过后端的服务器,相当于用户每次访问网页,在前端爬取数据后,再上传到后端,每次使用用户的 ip 。 当然需要告之用户,类似做一个更新最新数据的按钮,用户自己点击,然后再爬取数据。

5501 次点击
所在节点    问与答
26 条回复
ajaxfunction
2020-04-15 17:36:31 +08:00
先搞清楚这个爬虫是你自己用 还是给用户用

要是你自己用咋也好说,浏览器插件 扩展 脚本都行

如果是给用户用,那么浏览器就限制死了,无法发起跨域操作,你总不能让用户去安装 扩展 脚本这些吧?
netnr
2020-04-15 17:49:24 +08:00
爬取行政区域,基于浏览器

https://github.com/netnr/zoning

需要跨域可以加一个代理,参考:netnr/workers 或 netnr/proxy
netnr
2020-04-15 17:52:43 +08:00
再一个例子,域名备案查询,直接在浏览器发起站长之家的链接,匹配 HTML 提取关键内容

https://ss.netnr.com/icp
Tink
2020-04-15 22:05:01 +08:00
你跨域了
iX8NEGGn
2020-04-15 22:26:36 +08:00
@netnr 可是,加代理了走的不就是代理的 ip 了吗,楼主想用户的 ip 。同源策略,跨域,看来楼主想多了
angryfish
2020-04-15 23:25:52 +08:00
浏览器是不行的。安卓,ios 这些 app 是可以做到的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/662582

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX