想把百度贴吧的记录删掉,写了个脚本

2016-12-10 11:44:17 +08:00
 lc4t

昨晚上想删 tieba 记录。。以免被爬(hei)被(li)社(shi)。。。

https://github.com/lc4t/clean-baidutieba

又一个 err_code 据说是 tbs 不对。。也不造为什么。。

挂在 vps 上跑啊跑。。

4630 次点击
所在节点    分享创造
19 条回复
shana
2016-12-10 12:00:00 +08:00
贴吧有两种 tbs ,不知道你获取对没有
lc4t
2016-12-10 12:13:37 +08:00
@shana 我直接 re 了下.. 你说的两种指的是..?
shana
2016-12-10 13:00:59 +08:00
@lc4t 一种是 26 位的,一种是 16 位的。
26 位的可以在这网址获取 tieba.baidu.com/dc/common/tbs , 16 位的我忘了...
lc4t
2016-12-10 13:23:45 +08:00
@shana 16 位就是我 re 匹配的.. 谢啦
lc4t
2016-12-10 15:24:33 +08:00
@lc4t 纠正。。 re 页面源码找到的是 26 位的,偶尔出现 tbs 错误偶尔没有。。
minamike
2016-12-10 16:24:55 +08:00
之前我也辛苦地天天删 30 条黑历史 结果有一天由于我回复了一条帖子然而被度婊吞掉 于是我不停回复不停被吞 最终账号被永封了 所有黑历史都不见了 😂
lc4t
2016-12-10 18:58:52 +08:00
@minamike 😄真是一个好策略😂😂😂
Tyler1989
2016-12-10 19:18:21 +08:00
能删指定内容吗例如邮箱
lc4t
2016-12-10 19:28:49 +08:00
@Tyler1989 暂时没这个功能.. 你可以在 reply_content 设置个 filter ,根据 filter 加入待删除 list )
lc4t
2016-12-10 19:58:46 +08:00
@Tyler1989 好了我加了个参数。。可以给个正则去删
huang5587783
2016-12-11 12:35:56 +08:00
好东西啊
cio
2016-12-12 15:57:31 +08:00
挺好玩的。看了下源码,爬完了发帖 url 和回帖 url 放入列表 。然后删除的时候 往 哪个地址提交的呢。是提交的 post 吗。然后这些地址是你抓包抓的还是怎么或得到的呢= =就是你怎么知道是这个地址执行删除操作..
lc4t
2016-12-12 16:27:22 +08:00
@cio del_reply del_tie 是删除函数. 具体 API 抓包就可以看到.
XYxe
2016-12-15 22:09:55 +08:00
230308 的问题能解决吗?我这边所有的都提示这个错啊
lc4t
2016-12-15 23:01:56 +08:00
@XYxe 我这里有一堆是这个问题。。后来把脚本运行间隔改成 4 小时了。。目前还不造这个问题怎么解决
XYxe
2016-12-15 23:05:56 +08:00
@lc4t 是不是可以考虑对 APP 抓包啊?
lc4t
2016-12-16 03:23:27 +08:00
@XYxe 嗯。。懒。。 有空我试下 app 和手机版吧。。 理论上写爬虫应该从简单的 API 下手的。。 hhh
Sanko
2016-12-23 20:01:37 +08:00
@lc4t 能详细讲下吗 我现在也出现 230308 错误 纠结一下午了
lc4t
2016-12-23 21:07:51 +08:00
@Sanko 230308 还没完全解决。。建议换个手机版 API 试试?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/326623

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX