notgod
2016-07-26 08:01:24 +08:00
你要明确一个定义, 说清楚什么规模的
真正拿的上台面的更新及时的盗版小说站 不多只有几个 这个姑且叫一线类站
这类站 有个特点 就是专攻各种搜索排行榜 榜上有名的, 而那些点击小的 没人浏览的 基本都不入库
所以小说数据不多 但是都是那种热搜的
像一类站 他们有自己的团队 整个流程比较成熟
以前是有专门的维护人员 后来改为机器主力,人工辅助
整个流程差不多这样
首先 准备付费账户 比如起点 自动订阅小说
监控系统 自动登录 定时访问 监控到小说有新章节发布, 采集回来
如果是
文字章节,直接发布
图片章节,尝试 OCR 转换, (大站都是定制的 OCR 模块 非常简单 只是字体的问题而已 识别率很高)
如果 OCR 转换的章节小于 NN 个汉字,代表转换异常
图片章节,人工修正
你们好奇这些人工哪里来是不? 大部分是志愿者(练习打字 学五笔。。。。) 少部分兼职
中国什么多? 人多....
以前贴吧红火的时候 部分会监控小说贴吧 一般间隔 10 分钟 贴吧就有最新章节出现了
那时候盗版不管 后来因为盗版问题 一些吧主主动改为 1 小时后更新 .....
二线小说站 基本都采集
这类更新都直接采集的一线站点 然后使用采集器 比如关关采集器
什么作品都采集 靠量 一些乱七八糟的也采
然后你就经常看到一些 底部会加水印
我也不记得我哪年做过小说站了
应该是上海移动怒江机房被断网那年 我有个机器被 ko 了
那时候小说站不多 我挂个小说的小偷程序 一天都 50000IP 以上
后来感觉没挑战性 就撤了 那时候根本没什么版权概念 没人管
到现在我还有 2 个小说域名 我都不稀罕说......
NjV3eC5jb20= 和 eXl6dy5uZXQ=