用什么抓邮件不会缺失数据??

2020-07-07 10:06:26 +08:00
 bworker

最近要把公司的公共邮箱的邮件抓到本地,然后做一层权限控制和操作记录。

一开始我使用的 python 的 pop3 去抓取邮件,但是会缺失一些数据,比如邮件的发件人名称、还有一些邮件内容也会缺失。

为什么 fixmail 这些客户端软件都不会缺失数据??,他们是怎么实现的? 难道不也是抓 pop 服务器的?

有什么好建议吗? 怎么将邮箱数据更好的同步到本地数据库里?

1387 次点击
所在节点    问与答
16 条回复
TimePPT
2020-07-07 10:33:26 +08:00
描述里看不出哪个环节出了问题,下到本地的邮件头完整吗?一般头里有收发件人信息
x66
2020-07-07 10:46:52 +08:00
名称应该是通过通讯录读取出来的吧。
bworker
2020-07-07 10:49:21 +08:00
我就是用 python 的 popLib 库解析不出来,估计是这个库的问题
MadbookPro
2020-07-07 10:49:45 +08:00
是不是没有对 Content-Transfer-Encoding 做相应的处理?
7bit 8bit base64 quoted-printable 等等
wangkun025
2020-07-07 10:51:40 +08:00
开启 imap,不就是同步了嘛
不理解为啥会缺失数据。邮件本身就是个文件。
bworker
2020-07-07 10:55:53 +08:00
缺失数据,好像是编码的问题
bworker
2020-07-07 14:37:13 +08:00
@MadbookPro 怎么去处理?
None123
2020-07-07 14:42:37 +08:00
别用 pop3 用 IMAP
None123
2020-07-07 14:44:17 +08:00
pop3 得到的数据不全
MadbookPro
2020-07-07 14:45:00 +08:00
@bworker #7 参考 [rfc2045]( https://tools.ietf.org/html/rfc2045) ,我没用过 python,但是 python 会有标准库的。
Ritter
2020-07-07 14:55:38 +08:00
我现在也在弄这个 用 IMAP 协议 可以用 GitHub 上面这个库(Imbox)[https://github.com/martinrusev/imbox] 自己解析太麻烦了
bworker
2020-07-07 15:35:03 +08:00
@None123 @TimePPT 我感觉是 python 库解析的问题, 我 debug,明明有名称这个信息,但是它没解析出来
bworker
2020-07-07 15:58:50 +08:00
@Ritter 这个库会丢数据吗?大数据量抓取会不会少邮件?
None123
2020-07-07 16:09:17 +08:00
@bworker pop3 就是少数据 我 qq 和 gmail 都试过了

我 27 万条数据 都是用 imaplib 抓出来的
Ritter
2020-07-07 16:35:56 +08:00
@bworker 我抓了没少
bworker
2020-07-07 16:45:01 +08:00
@Ritter 抓了多少邮件?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/687793

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX