现在原始数据公司是腾讯云的 flume 直接入云服务器上的 mysql,然后很蠢的 spring 切数据源的方式,先查腾讯云上的 mysql 数据,然后稍微加工下,入库内网。现在公司投放大了,已经扛不住了,定时任务是 10 分钟一次,但是数据可能要 20 分钟跑完。有什么洋气点的 高效方法吗
1
nolo 2019-08-12 09:29:04 +08:00 via iPhone
实时计算,flink
|
2
snappyone 2019-08-12 09:32:58 +08:00
上大数据全家桶了,不过数量级大概有多少呢,找下瓶颈在哪里
|
3
tomowang 2019-08-12 09:36:58 +08:00
flume 试过可以直接用 hdfs sink 写入 google cloud storage,不知道 oss 支不支持。日志这种就别放 MySQL 了,oss 肯定是最方便的
|
4
90928yao OP 没必要去 hdfs 的。。。。就是广告数据 给头条这些运营商匹配点击算广告费的。。。
|
5
90928yao OP 我看人家同步数据用什么订阅 binlog 会不会快点
|
6
jk1030 2019-08-12 10:19:30 +08:00
有大数据平台吗 用那个吧,这种点击数据为什么还会放在 mysql?
|
7
az422 2019-08-12 10:28:00 +08:00 via Android
查数据、入库这些改为批量操作试下。另外这里涉及到从云数据库到内网的转换?是的话,定时任务是部署在内网么?要是我搞的话将它部署到云,将最后一步入库,改为入云的 Kafka,再内网起多个 Kafka 消费者入库(洋气高效:加机器)。
最后记得问下运维办公网和服务器网是否隔离,内网服务器带宽是否足够 |
8
lihongjie0209 2019-08-12 10:44:29 +08:00
定时任务是 10 分钟一次,但是数据可能要 20 分钟跑完。有什么洋气点的 高效方法吗
???? 没看懂 你现在的需求是 A. 定时任务会出现并发执行的问题, 需要找一个解决方案 B. 你想把 20 分钟的定时任务在 10 分钟内执行完成 C. 你不想用定时任务了, 想做实时计算? 先选完再讨论 |
9
90928yao OP @lihongjie0209 想知道其余公司是这么处理这种广告匹配的任务的、游戏公司,会投大量的广告。一天有将近 E 的点击数据,然后去匹配游戏账号的激活注册信息。回掉给头条这种广告公司
|
10
airfling 2019-08-12 11:01:54 +08:00
点击数据造假呗,反正只是需要知道一个大概趋势就可以了
|
11
lihongjie0209 2019-08-12 11:05:43 +08:00
@90928yao #9 只能异步放在消息队列中慢慢做, 量大了就增加消费者节点
|