开源一个我自己写的百度贴吧云监控平台源代码(用到了中文分词以及贴吧 api 调用)

2016-05-15 12:48:15 +08:00
 changwei

百度贴吧云监控(功能:百度贴吧发帖频率统计以及贴吧帖子热门关键词统计) 仓库地址 https://github.com/cw1997/Tieba-Posting-Frequency demo 地址: http://t.changwei.me/tongji (搭建在 openshift 速度非常卡是服务器问题不是我代码有问题,大家轻喷) 代码是过程化编写的,没有用什么面向对象啊 MVC 啊之类的,不图优雅,图个简单。

代码使用方法: 上传所有文件到服务器上,添加 do_num.php 和 do_tongji.php 为监控项或者 cron 计划任务,每小时执行一次。导入 tongji.sql 到数据库中并且修改 conn.php 中的各项配置即可。

touxiang.php ——获取贴吧头像(服务端脚本获取可绕过贴吧的 Referer 检测,此脚本有被 DDOS 攻击的风险,如有需要可修改文件名以及在 do_xxx.php 文件中对应的 require 语句)
index.php ——首页展示
timer.class.php ——统计脚本执行时间类文件
do_num.php ——定时 fetch 发帖量数据并且存入数据库进行统计
do_tongji.php ——定时 fetch 帖子内容并且调用中文分词 API 进行分词并且存入数据库进行统计

中文分词部分调用的是 SCWS 的中文分词接口,特此感谢。

4482 次点击
所在节点    分享创造
26 条回复
mornlight
2016-05-15 13:04:52 +08:00
噗,你怎么开发了这么多贴吧周边工具...

搭车送上我前些日子写的反垃圾平台 http://www.fucktieba.com ,目前不开放功能,内部使用。
changwei
2016-05-15 13:27:40 +08:00
@mornlight 你写的那个有啥功能?识别帖子内出现的关键词删帖?
mornlight
2016-05-15 13:31:05 +08:00
@changwei 差不多是这样,不仅仅是靠关键词,还会判断 ID 是否是广告机。现在的贴吧太乱,帮吧务删广告用的。
zsx
2016-05-15 14:08:14 +08:00
我也想起了我给自己写的自动签到和删广告器(虽然是靠关键词识别)……
crab
2016-05-15 14:14:22 +08:00
能提示点关于 IP 那个哪里获取吗。
crayygy
2016-05-15 16:23:29 +08:00
@mornlight 是帮 ECNU 吧写的么😂
mornlight
2016-05-15 16:29:34 +08:00
@crayygy 是啊
rootliang
2016-05-15 16:46:51 +08:00
里面 PW 和 BDUSS 在哪里详细改?
liujiantao
2016-05-15 17:54:23 +08:00
围观苍老师
bdbai
2016-05-15 19:39:50 +08:00
楼主是 昌维 001 么?好眼熟
changwei
2016-05-15 19:45:25 +08:00
@rootliang 你打错了吧,应该是 kw , kw 是 keyword 也就是贴吧名,在数据库里面手动添加即可。 bduss 不需要写,相当于匿名访问贴吧
changwei
2016-05-15 19:45:41 +08:00
@bdbai 啊哈,好巧,话说你是?
bdbai
2016-05-15 19:53:49 +08:00
@changwei 包布丁 PHP 吧的
rootliang
2016-05-15 21:13:46 +08:00
@changwei 也就是说在数据库里添加个贴吧名就可以了?
changwei
2016-05-15 21:15:34 +08:00
@rootliang 是的,貌似数据库里面有注释,按照注释添加
changwei
2016-05-15 21:16:00 +08:00
@bdbai 好巧啊,我现在是 php 吧的小吧了→_→
willhunger
2016-05-15 21:21:00 +08:00
@changwei 艾特泷涯。。。
Patrick95
2016-05-15 21:21:46 +08:00
@changwei 我经常去逛逛 PHP 吧~
bdbai
2016-05-15 21:40:10 +08:00
@changwei 所以出这么多贴吧周边真是辛苦了
kslr
2016-05-16 03:00:42 +08:00
文件的命名最好统一英文

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/278742

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX