Python 爬虫 分析网易 163 邮箱的邮件列表节点(加载方式)遇到阻碍...

2019-03-15 13:24:44 +08:00
 Northxw

  网易的产品给我的感觉亲和力还挺好的,网易新闻连 robots.txt 都没有,默认允许所有爬虫的爬取行为。今天爬取网易 163 邮箱,却着实碰到了一个硬茬,邮件列表的 div 一直获取不到,我自己分析了两种可能:

2244 次点击
所在节点    程序员
7 条回复
takemefly
2019-03-15 13:28:37 +08:00
应该是 JS 加载。有前端知识的话,可以了解这个开源抓取器 https://gitee.com/golddata/golddata-spider,里面提到了一个免费社区板试试。
Northxw
2019-03-15 13:41:08 +08:00
@takemefly 爬虫自动化工具呗 嘿嘿 不过我还是想自己搞
krixaar
2019-03-15 15:43:54 +08:00
爬邮件内容的话,应该是只能爬自己的邮箱,如果是爬自己的邮箱,为啥不直接把邮件 IMAP 下来……
从 126 看是一个到 mail(dot)126(dot)com/js6/s?sid=(cookie:Coremail.sid)&func=mbox:listMessages&deftabclick=t3 的 xhr,POST 一个特定格式的 xml,然后直接回一个 json 的邮件完整列表。
Northxw
2019-03-15 16:12:30 +08:00
@krixaar 我的初衷是用 Selenium 登录加爬取邮件,如果那样的话,太千篇一律了。。。
coolloves
2019-03-15 21:46:27 +08:00
@Northxw 如果是收取邮件,好像可以直接通过 pop 模块获取吧
locoz
2019-03-15 22:36:31 +08:00
直接用协议不是方便很多吗
Northxw
2019-03-15 22:39:15 +08:00
@coolloves 你好,不是直接收取邮件。而是获取邮件列表中所以邮件的有效信息。。。

@locoz 协议固然方便,哈哈。 不过我还是希望自己通过 Selenium 实现下,不想太千篇一律。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/544945

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX