扔一个在赶论文做项目期间从牙缝里抠出时间做的且现在还在做的小玩意
http://lsucssa.com/bbs/做了一个把俺们学校的中国学生的 Mailing List 转换成论坛帖子的东西……(话说别的牛校的 CSSA 的论坛都做得很完善,我们这里什么基础设施都要从零开始… 差距大得有点令人觉得绝望… 以后要是有选择环境的机会各位同学一定要选最好的环境)
有一个 Python 脚本做以下事情: (写得很烂所以才这么长的)
※ 从某个邮箱中以 IMAP 方式把最近的邮件下载下来(这个过程 30 分钟被 crontab 触发一次)
※ 对每封邮件,根据发件人查找或添加论坛中的用户
※ 把邮件中内嵌的图片和附件中的图片转成附件,上传到论坛服务器上
※ 把邮件中内嵌的图片用 BeautifulSoup 解析一下,然后把<img cid=xxxx>这样的结点转换成对论坛附件的引用
※ 如果图片太大,就缩小成 1000x1000 以下
※ 把邮件的讨论串结构解析出来,分清主题和回复
※ 用一个分类器把邮件分成几类(主要有买卖东西和租房这两类… 所以分类分起来还是很容易的)
※ 把邮件内容、添加的用户转成 SQL 查询,然后上传到论坛上
※ 如果论坛上有帖子,就生成一封邮件,再发回 mailing list 去
以上步骤都在一台龙芯 2F 笔记本上运作 … 这台本的 uptime 已经有 330 天左右了 … 质量筻筻的!
因为解析邮件这个地方有诸多细节,所以前前后后这个东西也折腾了两年之久 … (比如 Python 中的 email 有些情况不能解析)
目前用户数大概是两位数…… 因为一直也还没有广而告之,希望做更好一点再告诉大家让大家来用
另外最近还要想办法抵御钓鱼邮件…… 因为这是个实实在在的新威胁
不管我这个做得多烂,只要能激起学校里有兴趣的同学继续完善这些基础设施就值了…