我用 phantomJS+beautifulsoup 没法看到网页里面特定的内容,请问应该用什么方法来做爬虫啊?

2017-04-09 22:22:59 +08:00
 andmspy

网页如下: https://www.joinquant.com/post/2997?f=sharelist&m=list

特定的内容:当前持仓和最新下单

我只想做一个发现更新就发邮件通知我的小程序,现在不知道怎样爬里面的内容。。。

2531 次点击
所在节点    Python
7 条回复
zyEros
2017-04-09 22:30:17 +08:00
andmspy
2017-04-09 23:21:49 +08:00
@zyEros 请问用什么方法找出来的啊?厉害啊~~
ljcarsenal
2017-04-10 00:21:41 +08:00
看接口请求呗。 network 里。 讲道理 看生成 html 爬取的是知乎教程的水平
acheapskate
2017-04-10 00:31:26 +08:00
我也有这个问题。。 有些页面是 js 动态加载的,我用 phantomJS 的 webdriver 访问它,但是有些 class = "flag xxxx xxxx "不能用 find_element_by_class_name()获取。因为这个 class 中有空格。。🤔🤔

不知道怎么直接向网站发出 获取 js 加载内容的请求,有 v 友简单说下方法吗
zhihaofans
2017-04-10 00:36:40 +08:00
@acheapskate 有空格是因为它有多个 class ,我没用过 phantomJS 不清楚它是怎么筛选多个 class 的,如果是 jQuery 的活就将多个 class 用英文的点"."串联起来
zyEros
2017-04-10 00:38:53 +08:00
@acheapskate 动态加载最好还是分析 ajax 接口,找到规律,然后进行请求
acheapskate
2017-04-10 00:45:58 +08:00
@zhihaofans 多谢,明天去试试 嘿嘿🤓🤓

@zyEros 我去搜一下然后试试吧,谢谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/353659

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX