想开发一个 chrome 插件实现打开论坛指定板块的帖子列表,抓取其中指定的内容,单开新的窗口展现

2017-07-20 14:45:54 +08:00
 dynastysea
请教 v2 的大神,这个有什么方式实现比较好,google 的扩展程序开发,用 js 方便些,但个人 js 实现比较弱,python 勉强,倾向于用 python 实现,这个可以吗,搜索了一下貌似没有比较好的方法,请大神些指点一下
1756 次点击
所在节点    程序员
9 条回复
Kokororin
2017-07-20 14:55:40 +08:00
用 jQuery.ajax 请求指定网页,再用选择器抓取,这个应该没什么难度
dynastysea
2017-07-20 15:41:39 +08:00
@Kokororin 主要是爬取帖子列表里的每个帖子的内容,然后做聚合,这个也是用 jquery 可以实现吗
mansur
2017-07-20 15:45:14 +08:00
requests
Kokororin
2017-07-20 15:48:40 +08:00
@dynastysea 用 jq 最方便,chrome 扩展无视跨域,随便你怎么抓
freeminder
2017-07-20 15:53:49 +08:00
拿 python request 下好内容自己拼一个 html 存在临时目录,然后 system 一个 open/start 这个 html 不就可以了吗?
autoxbc
2017-07-20 19:33:48 +08:00
原始的论坛页面有丰富的前端代码,抓取内容生成页面很可能无法继承必要的结构和功能。不如就在原始页面上,通过 ajax 获取列表中帖子的内容,过滤出一个定制版。

粗略估计二十行代码就足够,不需要什么技巧。js 是 Web 的原语,实现功能事半功倍,这点其他语言比不了。
dynastysea
2017-07-20 19:56:27 +08:00
@autoxbc 这里还需要爬取每个帖子的内容,二十行搞不定把,而且 js 做爬虫也不是长项
autoxbc
2017-07-20 20:15:48 +08:00
@dynastysea 我说的够保守了,原来想说十行就够了。爬每个帖子,就是一行选择器加一个回调,没什么复杂的。当然如果做出的扩展要给别人用,那要有些外围代码。
soulmine
2017-07-21 11:18:13 +08:00
@dynastysea js 抓取论坛帖子链接这种情况 直接用 for each 原生并发不比 python 还要写多进程 强么

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/376691

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX