通过 feed43 抓取微博搜索的内容,遇到 script 卡住了,求解

2017-06-12 12:33:33 +08:00
 java
RT。想抓去的内容在
<p class=\"comment_txt\" node-type=\"feed_list_content\" nick-name=\"\u5927\u8fde\u65e5\u62a5\">\n\t\t<a class=\"a_topic W_linkb\" href=\"http:\/\/huati.weibo.com\/k\/%E4%BC%98%E5%8C%96%E5%A4%A7%E8%BF%9E%E8%90%A5%E5%95%86%E7%8E%AF%E5%A2%83+%E7%9C%8Bta%E5%81%9A%E5%95%A5%E8%B4%A1%E7%8C%AE?from=526\"suda-data=\"key=tblog_search_weibo&value=weibo_feed_topic\" target=\"_blank\">
里面,如何提取?求大大指步
2007 次点击
所在节点    问与答
3 条回复
Mavious
2017-06-12 13:43:09 +08:00
没有办法的,我困在网页嵌入 js (由 js 输出我想要的内容)里一筹莫展。和 LZ 遇到的、内容不直接存放在 HTML 上,是一样的情况。
我不是前端,不会分析,所以发过求分析的帖子。
被告知处理这类输出的话,对服务器有性能要求,除非自己部署在自己服务器上,否则无解的。
feed43 只能处理静态页面。

PS:我在 43 上挂了至少 30 个爬虫,虽然不是开发者,但自诩对 43 非常熟悉了。这个真真是无解的。
java
2017-06-14 12:32:14 +08:00
@Mavious 有支持 JS 抓取的 rss 站点吗?
Mavious
2017-06-14 21:57:29 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/367786

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX