V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
wstart
V2EX  ›  Python

仅从数据来看,目前的新型冠状病毒有多严重?

  •  9
     
  •   wstart · 2020-01-26 20:10:58 +08:00 · 22944 次点击
    这是一个创建于 672 天前的主题,其中的信息可能已经有所发展或是发生改变。

    0x00 声明&目的

    声明:

    • 本文只是一个学术的研究,能够获取的数据维度非常单一且数据量也少,并无任何实际的价值和参考意义,请不要对号入座,请不要随便断章取义,歪曲本文。
    • 本文的数据来自于 WHO,国家卫检委和腾讯新闻。全部人工抄录,如有错误之处,敬请指出。
    • 本文写于 1 月 26 日,当时获取到的信息非常有限,得出的结论可能会被后续更多的数据被推翻。再次声明,所以- 本文仅是一个学术的探讨,仅仅是一个思路,并无实际的价值和参考意义。
    • 本人也是个菜鸡程序员,可能会有数据错误,程序没写好,有 BUG 等,欢迎指正批评。一起探讨学习。

    目的:

    本文探讨的主要目的是,有没有一种算法可以根据已有的数据对疫情进行预测和评估,可以方便在疫情出现的时候,根据预测的数据来判断当前的疫情状况。

    文章分为 5 段

    • 猜想
    • 数据准备
    • 猜想验证
    • 新型冠状病毒确诊数据的预测和评估
    • 总结

    Ps : 心急的朋友可以直接拖到末尾 看结论。

    img

    (写本文时的疫情状况,图源丁香)

    0x01 猜想

    由于当前新型冠状病毒的数据并不多(从 11 号-26 号),所以仅仅是新型冠状病毒的数据来做研究是不够的,必须还要一组参考验证组。(当然是越多越好,但是精力有限,所以只找了一组)。

    首先明确一下判断疫情的严重情况的指标,目前疫情一般会公告这四个数据:

    • 确诊病例
    • 疑似的病例
    • 感染的地区
    • 死亡的人数

    由于我们把地区限定在了中国(虽然各个地区不一样),所这个地区的指标就不用了,死亡人数在疫情的前中后期都不太一样,这个也不用。疑似病例这个和各地的收诊情况有关系,比如香港的疑似病例就非常多,确诊很少,所以这个指标也不采用,剩下就以确诊病例作为唯一的参考指标。

    猜想 1

    假设病毒的传播和地区,气候以及病毒自身的特征有非常大的关系,那么只要找到一个和新型冠状病毒这三个属性非常相似的病毒,只要算法能够对这种病毒的确诊病例进行预估和判断,那么算法也可以对新型冠状病毒进行预估和判断。

    img

    ( 03 年 4 月 22 日 SRAS,图源..不太清楚)

    目前和新型冠状病毒最像的应该就是 SARS: 气候和现在差不多,1 月和 3 月。 地区主要是是中国。 病毒类型:都是冠状病毒,都有发烧咳嗽等特征。

    那么基于上述的条件,采用了 SARS 作为参考组。

    猜想 2:

    可以给定一个 Δ,

    • 如果 当前确诊的病例 - 预测的确诊病例的比率 >Δ,那么当前的疫情变异了,进一步扩大影响的范围。
    • 如果 当前确诊的病例 - 预测的确诊病例的比率 < -Δ,那么当前的疫情已经基本被控制,已经减弱了。
    • 如果 -Δ < 当前确诊的病例 - 预测的确诊病例的比率 < Δ,那么当前的疫情还在平稳的发展中,没有进一步变异。

    0x02 数据的准备

    确诊病例的数据

    • SARS 的数据来源于 www.who.int , 数据从 03 年的 3 月 17 日-5 月 30 日 。
    • 新型冠状病毒的数据来源于腾讯新闻和国家卫生健康委员会 http://www.nhc.gov.cn 数据从 20 年的 1 月 15 日到 1 月 26 日。

    如果可以拿到 SARS 在 1 月份的数据就好了,可惜没有一个比较完整的地方有记录,基本上卫生部发布的好像是从四月份开始。于是只能采用四月份的数据了。

    评估的算法

    采用了 LSTM(长短期记忆网络),搭建的话 Keras。LSTM 已经是个老算法了,经常用于量化投资(简单点来说就是炒股之类,预测股票的增长),非常擅长于时间序列的预测。 最终调教后的算法模型是,根据过去三天的数据,可以预估最新一天的数据。

    img

    LSTM

    实验的环境

    数据量比较少,直接租了一台 16 核 8G 的云主机进行测试。

    0x03 猜想验证

    猜想验证部分直接全部使用 WHO 的 SARS 的数据进行验证。采用的字段是 Cumulative number of case(s),累计病例数,我这里就当它是确诊人数了。

    SARS 的数据分别有两部分,一部分是中国大陆的,一部分是中国香港的。 在 5 月份后基本已经趋于平缓,所以只取了前两个月(约 60 天左右的数据)。

    img

    中国大陆确诊人数变化曲线

    img

    中国香港确诊人数变化曲线

    可以看到数据涵盖了病毒爆发期,病毒平稳增长期,以及病毒被消灭期,比较合适用来验证算法是否可以拟合整体的曲线。

    0x031 猜想一

    这里采用前 50 天的数据做训练样本,训练的结果用来预测 60 天的情况, 预测和实际的对比如下:

    img

    中国大陆 SARS 确诊人数变化曲线(预测和实际)

    img

    中国香港 SARS 确诊人数变化曲线(预测和实际)

    从图中我们可以看到,在使用了 90%的数据量下,数据是拟合的比较好的,肉眼看上去香港的数据基本可以用算法完全预估。这里给一下数据误差的对比情况:

    • 误差:|(实际值-预估值)/ 实际值 |
    • 中国大陆:误差的平均值 0.057 , 误差的均方差 0.060 。
    • 中国香港:误差的平均值 0.053 , 误差的均方差 0.137 。

    说人话就是,模型预测的数据和实际的数据最多差了 6%。效果是非常理想的。这里我们可以证明第一个猜想,即 LSTM 可以用来拟合 SARS 确诊人数的变化情况。

    0x032 猜想二

    实际上虽然猜想一得到了证实,但是依旧没啥用,因为这里的模型是使用了 90%的数据,基本已经到了传播的后期。那么前期是否可以使用同一个模型进行验证呢? 这里只取中国大陆的数据进行试验。

    img

    根据三个阶段(这三个阶段是肉眼判断截取的,是否合理当时没有考虑)截取对应的数据进行建模,建模后的预测效果如下:

    img

    前期的数据建模人数变化曲线(预测和实际)

    img

    中期的数据建模人数变化曲线(预测和实际)

    img

    后期的数据建模人数变化曲线(预测和实际)

    在前期的数据的预测中,到后面两个阶段实际的数据都比预测的数据比要大,说明在疫情开始了爆发。

    在中期的数据的预测中,其他两个阶段预测的数据基本都比实际的数据要大, 说明在疫情在前期的感染速度较低,后期的感染速度也变低 。

    根据上面两个数据,是可以推测是存在一个 Δ 去判断当前的疫情状况的。但是 Δ究竟是多少呢,这里倒是可以根据好几个因素去设置:

    • 斜率的改变
    • 误差的改变
    • 转折点的个数等

    这里就偷懒了,可以明显看到各个时期都有一个或者多个转折点(消亡期不算),直接取最接近转折点的误差率来计算:

    • 在爆发期里面,最靠近转折点的误差值是 0.21 。
    • 在控制期里面,最靠近转折点的误差值是 0.14 。

    两个取平均作为 Δ的值,也就是 0.175 。

    0x04 新型冠状病毒确诊数据的预测和验证

    img

    (新型冠状病毒从 16 号至 26 号确诊人数变化曲线)

    分别取前 6 天的数据(到 20 号),取前面 9 天的数据(到 25 号)的数据代入模型进行预估

    img

    到 20 号的数据模型确诊人数变化曲线(预估和实际)

    img

    到 25 号的数据模型确诊人数变化曲线(预估和实际)

    为什么选 20 号呢,20 号主要是央视有采访钟南山大佬,而且第一次说明了人传人的存在,以及 14 名医护被感染。我觉得应该算是开始重视这个病毒的一个点,随后各地开始上报疫情,发布以及响应等。

    再往前的时间点就数据就比较缺失了,模型精准度已经失去了使用的价值,所以采取了 20 号的这个时间点作为分隔来建造模型。

    如果以到 20 号的模型来估算的话,第一次误差偏离 0.17 的时间是 23 号,误差为 0.19 。23 号,广东,浙江启动了一级响应。确诊的病人增多。但个人感觉应该是检测的方法变强导致的,侧面来看,模型的确检测除了异常值,不过并不能够说明病毒变强了。

    如果以到 24 号的模型来看,预估的 25 号的数据是 1877,实际的数据 1972,误差率在 0.04 ,未到偏离值。所以根据这个模型推断,当前疫情还在持续扩散中,但是并没有进一步恶化,可能国家的高度重视和很多省份都开始参与其中有关系。

    依照当前的模型,明天的确诊人数的预估值是 2770,加上 0.17 的误差的话

    • 如果实际的确诊人数 > 3337 说明疫情加重
    • 如果实际的确诊人数 < 2367 说明疫情正在被控制
    • 如果处于中间,那还是依旧在扩散发展中,但并未恶化。

    再次声明:

    以上的观点和结论都属于依据当前的确诊人数所作的推断,毫无参考的意义和价值。如果数据刚好对了,不能说明什么,如果数据错了,证明这个模型真的不行。

    那么,如果我们带入 SARS 最严重的的时候,会怎么样 ?

    img

    还是按照误差 0.17 来算,在 23 号,误差达到了 0.18 ,也就是 3 天前,按照这个模型的数据推算,新型冠状的病毒传染性比 SARS 要强。 但也可能是和春运有关系,毕竟数据的时间不一致。

    再再次声明:

    以上的观点和结论都属于依据当前的确诊人数所作的推断,毫无参考的意义和价值。如果数据刚好对了,不能说明什么,如果数据错了,证明这个模型真的不行。

    0x05 再多讲几句

    写这个的目的纯粹是为了探讨和研究,实际上,真的要写一个这种疫情预测和评估的系统,需要非常多的参考的数值,比如医护人员的数量,检测手法准确率,时间,病毒的潜伏期等等,需要非常多的人力物力才可以编写完成,像本文这种只靠单一维度的输入去判断和预估的模型和玩具没什么区别。

    但是在编写的过程中也发现很多问题,,疫情的相关数据还是多方寻找才找到一部分 。

    • 例如支援的物品的统计,损耗和使用情况等
    • 例如病人的数量对物品的需求等
    • 例如疫情各个时期需要多少的物资统计等

    希望在这次的疫情中保留比较详细的数据 这些都可以作为系统的的输入,借助这些数据,打造一个强大完整的疫情监控和评估系统,甚至不是疫情,而是重大事件的监控和评估系统,待下次再出现疫情、灾情,可以快速的调度全国的资源进行处理和援助。

    最后,祝大家春节快乐, 多注意个人卫生, 带好口罩。

    第 1 条附言  ·  2020-01-28 11:30:30 +08:00
    声明:
    以上的观点和结论都属于依据当前的确诊人数所作的推断,毫无参考的意义和价值。
    如果数据刚好对了,不能说明什么,如果数据错了,证明这个模型真的不行。

    误差阈值是 0.17 ,达到阈值表示模型推测当前的疫情有变化。
    如果小于预测范围内的最低值,表示模型认为疫情在好转。
    如果大于预测范围内的最低值,表示模型认为疫情在恶化。

    26 号 预测是 2770, 范围在 [2367 , 3337] , 实际上 2744。误差可以忽略不计。
    27 号 预测是 4051。 范围在 [3462 , 4880] , 实际上 4515,误差在 0.10,

    还在误差内,所以不需要重新训练模型,按照当前的数据进行预测

    28 号 预测是 5914。 范围在 [5054, 7125] 。

    后续的预测就不再放出来了。
    有兴趣可以私聊我,拉群一起观测。
    第 2 条附言  ·  2020-01-29 23:02:57 +08:00
    声明:
    以上的观点和结论都属于依据当前的确诊人数所作的推断,毫无参考的意义和价值。
    如果数据刚好对了,不能说明什么,如果数据错了,证明这个模型真的不行。

    误差阈值是 0.17 ,达到阈值表示模型推测当前的疫情有变化。
    如果小于预测范围内的最低值,表示模型认为疫情在好转。
    如果大于预测范围内的最低值,表示模型认为疫情在恶化。

    26 号 预测是 2770, 范围在 [2367 , 3337] , 实际上 2744。误差可以忽略不计。
    27 号 预测是 4051。 范围在 [3462 , 4880] , 实际上 4515,误差在 0.10,
    28 号 预测是 5914。 范围在 [5054, 7125] ,实际上 5974,误差可以忽略不计。

    所以不需要重新训练模型,按照当前的数据进行预测

    29 号 预测是 8684。 范围在 [7422,9981,] 。

    接来的两天(模型可信度跌出 50%,除非前一天预测的数据误差可以忽略):
    30 号 预测是 12905。范围在[11029,14833]
    31 号 预测是 18379。范围在 [15708,21125]

    如果数据和这个差不多,希望大家还是先多在家休息一阵子。
    99 条回复    2020-02-03 10:42:41 +08:00
    jedicxl
        1
    jedicxl   2020-01-26 20:23:35 +08:00   ❤️ 3
    楼主这个快够论文了,强
    zhx1991
        2
    zhx1991   2020-01-26 20:30:39 +08:00   ❤️ 1
    相关预测的论文已经有很多了

    多数情况都不太乐观, 都是冲着好几万估的
    xuroid
        3
    xuroid   2020-01-26 20:31:23 +08:00
    感谢分享。期待明天数据。
    zli
        4
    zli   2020-01-26 20:31:27 +08:00
    已经有论文了呀

    Novel coronavirus 2019-nCoV: early estimation of epidemiological parameters and epidemic predictions
    https://doi.org/10.1101/2020.01.23.20018549
    PbCopy111
        5
    PbCopy111   2020-01-26 23:00:42 +08:00   ❤️ 1
    问题是,感染的人可能会几万甚至十几万,这并不可怕,可怕的是死亡率。。。。。就跟流感似的,一到冬天就几十万人感冒,但没有人因为这个死,所以不可怕啊。。。。
    avastms
        6
    avastms   2020-01-26 23:07:40 +08:00
    楼上怎么会觉得没有因为感冒死人的,全国光流感每个月都要死一两百人的。

    有兴趣可以看一下国家卫健委的法定传染病数据,是按月通报的。

    正经的传染病确诊都是上十万的。
    beimenjun
        7
    beimenjun   2020-01-26 23:13:26 +08:00
    但是现在看,此前的数据因为各种人为原因,存在不准确的状况,这种情况下预测其实是很难的。
    beimenjun
        8
    beimenjun   2020-01-26 23:15:50 +08:00
    @avastms 流感国内有研究人员预估死亡每年超过 8.8 万人,按照疫苗接种率看,如果和美国作比较,都用超量死亡率的算法看,我们一年死亡的绝对超过美国几千人。
    coloz
        9
    coloz   2020-01-26 23:30:50 +08:00   ❤️ 2
    数据都是公布的数据,因为一些原因,前期数据可靠性不高。我觉得最可靠的是计划的床位数,这可能是专家们真正的预期。
    heiheidewo
        10
    heiheidewo   2020-01-26 23:36:30 +08:00   ❤️ 1
    @avastms 单纯因为流感的死亡率很低吧,一般是伴随其他疾病,并且流感有药可医
    just1
        11
    just1   2020-01-26 23:36:46 +08:00 via Android
    @coloz 床位更不靠谱了,那一个医院才一千张床位,两个医院才两千张床位,现在确诊的就不止 2000 呢
    redbuck
        12
    redbuck   2020-01-26 23:37:42 +08:00 via Android   ❤️ 3
    刻舟求剑
    avastms
        13
    avastms   2020-01-26 23:43:03 +08:00
    @heiheidewo 那不低,老年人得了流感引发肺炎这就是致命打击,流感引发心肌炎对年轻人也是致命打击。那个抗病毒药吃着聊胜于无。

    现在这个病毒它厉害就在于它的名字厉害,冠状病毒,跟 SARS 一家的,要是流感家族变异出来这个病毒,其他方面一模一样,不相信它能拿到现在这个待遇。
    haomaming
        14
    haomaming   2020-01-26 23:44:21 +08:00
    @PbCopy111 每年因流感死亡的是很多的,但是窝锅不报。主要集中在老年人。80 岁以上得流感是很可怕的。所以我们的爷爷奶奶姥姥老爷,出门都穿很多(即便有的时候不怎么冷)。伴随的并发症更可怕。比如因流感引发的肺炎(普通肺炎)对于老年人而言致死率极高。欧洲的老年人每年接种流感疫苗在 90%以上,窝锅全国 2%
    artandlol
        15
    artandlol   2020-01-26 23:49:27 +08:00 via Android   ❤️ 3
    数据本身就不准,被传染很多都是农村的,然后窝家里。存在严重的幸存者偏差
    ddzzhen
        16
    ddzzhen   2020-01-26 23:54:56 +08:00 via Android
    看得出来多少天到达阈值开始平稳和下降吗?
    hangy
        17
    hangy   2020-01-26 23:58:09 +08:00
    插眼,明天来看看报道数据是多少
    wangyzj
        18
    wangyzj   2020-01-27 00:01:20 +08:00
    插眼
    hyyou2010
        19
    hyyou2010   2020-01-27 00:06:04 +08:00   ❤️ 2
    湖北省内的数据不可信,因为超过了确诊能力。而湖北省外的数据可信,因为省外没有隐瞒的主观动力。现在还是初期,存在一个发病到致死或治愈的过程,假定这个时间平均是 1 个月吧,那么在 1 个月或再长点时间后,这种病毒的致死率就可以通过湖北省外的数据比较精确地计算出来,我这个理解是否对?
    neurocomputing
        20
    neurocomputing   2020-01-27 00:15:21 +08:00
    上次 SARS 总感染数是 5000+级别,跟楼主预测的再同一数量级
    但是这次疾病的流行病学特征更不乐观,所以楼主的算法应该是估低了
    gamexg
        21
    gamexg   2020-01-27 00:33:07 +08:00 via Android
    @just1 印象加现有医院已经上 w 床位了
    just1
        22
    just1   2020-01-27 00:35:32 +08:00
    @gamexg #21 喔对我忘记了现有的,我只想了新建的雷神和火神。
    whwq2012
        23
    whwq2012   2020-01-27 00:36:32 +08:00 via iPhone
    @hyyou2010 省外怎么不会瞒,至少江西的绝对瞒了。用国外的数据估才有准确性
    Allianzcortex
        24
    Allianzcortex   2020-01-27 00:39:02 +08:00 via iPhone   ❤️ 8
    这种预测 domain knowledge 很重要,没有 CDC 流行疾病知识直接用 LSTM 就真的是黑盒子
    coloz
        25
    coloz   2020-01-27 00:43:06 +08:00
    @just1 注意看我说的是“计划的床位数”
    lunafreya
        26
    lunafreya   2020-01-27 02:38:19 +08:00 via iPhone   ❤️ 7
    拿着一维数据跑个 LTSM ???那写这么多东西干啥?手动黑人问号。
    morethansean
        27
    morethansean   2020-01-27 02:47:44 +08:00
    @PbCopy111 #5
    ...流感怎么会没有人死,只是没有像这样报道呀...比如按照交通部公布的数据,17 年交通事故死亡人数达到 6w 多人( WHO 很怀疑这个数值认为应该在 20w 以上),如果强行算个平均,每天死亡一百七十多人,听起来是不是很夸张?但这就是事实,世界太大了,中国也很大,意外和死亡时时刻刻都在发生着,但是没有新闻报道你不能就觉得没有人死了啊...
    WinG
        28
    WinG   2020-01-27 03:22:15 +08:00
    @lunafreya 我也纳闷,这点数据量上神经网络了.......
    zdkmygod
        29
    zdkmygod   2020-01-27 03:46:04 +08:00 via Android
    这次病毒的症状和致死率比 1201 非典和 1202 中东都要低很多,目前死亡人群中大部分也是长期病史的老年人,目前也就是个超级流感,大家也不用太紧张。但是冠状病毒的特点是有一定几率编译成为致死刑更高的病毒,所以也不能放松警惕。

    楼主的结论是什么呢?因为目前还在很前期的关系,所以预测的误差应该很大,所以终值没有预测?只是预测了明天的确诊人数并给出推断?
    ladypxy
        30
    ladypxy   2020-01-27 04:10:53 +08:00 via iPhone   ❤️ 2
    @zdkmygod 你完全低估了这病毒。就国内这措施,全国一级响应,连春节都延长了,你说这是超级流感? 1/3 的患者需要进 icu 是什么概念你有想过么
    zdkmygod
        31
    zdkmygod   2020-01-27 04:27:48 +08:00 via Android   ❤️ 1
    @ladypxy 非典死亡率 10 +%,中东呼吸综合征 30 +%的死亡率,目前新型冠状病毒不到 3%的死亡率完全就是宝宝级别的。你说的 1 / 3 进 ICU 麻烦给个出处谢谢。
    给你看看超级流感是个什么样子:1918 年的 H1N1 甲型流感。传染性极强,全球 5 亿人感染。最保守估计 2 千多万人死亡。
    你觉得我说超级流感就是低估了新型冠状病毒了?
    blless
        32
    blless   2020-01-27 04:38:48 +08:00 via Android
    @beimenjun 8.8w ? 数据不是每 10w8.8 人吗?
    zdkmygod
        33
    zdkmygod   2020-01-27 04:39:11 +08:00 via Android
    @ladypxy 1 / 3 的 ICU 我搜了一下,第一批 41 位病人才是 1 / 3 需要重症监护,所以请不要传播不实扭曲的信息,谢谢。
    用常识想一下,武汉两所新建医院需要建六七百个 ICU,什么鬼斧神工才能在六天内完成?
    zdkmygod
        34
    zdkmygod   2020-01-27 04:42:26 +08:00 via Android
    @blless 国内专家发表论文估计我国按美国标准计算流感死亡率,每年致死人数为 8.8w 。
    LHStone
        35
    LHStone   2020-01-27 05:12:26 +08:00
    可怕的不是死亡率。。是没有有效的治疗手段,钟南山当年的方案是用激素硬打,治好了基本上就是废人了。不知道现在到底什么方法治疗
    duola1024
        36
    duola1024   2020-01-27 06:49:55 +08:00 via Android   ❤️ 1
    @zdkmygod 这个病毒主要是传播能力太强,致病能力对于大部分年轻人,体质好就可以抗过去,所以年轻人不必太惊慌。
    但对中老年人,只要被传染就是个大问题。所以想象一下自己家里老人被传染,自己会有多着急,就不难推断出,假设现在不严格控制,全国医疗体系会承受多大的压力,很可能比收到援助前的武汉更严重。全国医疗体系一旦集体承压就可能出现非常严重的社会动荡。所以现在防患于未然是非常有必要的。
    chinesestudio
        37
    chinesestudio   2020-01-27 07:19:24 +08:00 via Android
    #疫情通报

    [#湖北 新增 371 例确诊病例,累计确诊 1432 例]
    1 月 26 日 0-24 时,湖北省报告新型冠状病毒感染的肺炎新增确诊病例 371 例,新增死亡病例 24 例,新增出院病例 2 例。其中:潜江市首次报告确诊病例,新增确诊病例中,武汉市 80 例、黄石市 5 例、十堰市 20 例、襄阳市 34 例、宜昌市 11 例、荆州市 14 例、荆门市 52 例、鄂州市 19 例、孝感市 45 例、黄冈市 32 例、咸宁市 21 例、随州市 16 例、恩施州 8 例、仙桃市 1 例、天门市 8 例、潜江 5 例;新增死亡病例中,武汉市 18 例、荆门市 2 例、孝感市 1 例、黄冈市 2 例、潜江市 1 例;新增出院病例中,武汉市 2 例。

    截至 1 月 26 日 24 时,湖北省累计报告新型冠状病毒感染的肺炎确诊病例 1423 例,重症病例 221 例,危重症病例 69 例,死亡病例 76 例,出院病例 44 例。其中:确诊病例中,武汉市 698 例、黄石市 36 例、十堰市 40 例、襄阳市 36 例、宜昌市 31 例、荆州市 47 例、荆门市 90 例、鄂州市 20 例、孝感市 100 例、黄冈市 154 例、咸宁市 64 例、随州市 52 例、恩施州 25 例、仙桃市 12 例、天门市 13 例、潜江 5 例;重症病例中,武汉市 141 例、十堰市 4 例、襄阳市 3 例、宜昌市 2 例、荆州市 10 例、荆门市 28 例、鄂州市 1 例、孝感市 9 例、黄冈市 16 例、随州市 2 例、恩施州 2 例、仙桃市 2 例、潜江市 1 例;危重症病例中,武汉市 51 例、襄阳市 1 例、荆州市 1 例、荆门市 3 例、孝感市 3 例、黄冈市 9 例、天门市 1 例;死亡病例中,武汉市 63 例、黄石市 1 例、宜昌市 1 例、荆州市 2 例、荆门市 3 例、孝感市 1 例、黄冈市 4 例、潜江市 1 例;出院病例中,武汉市 42 例、黄冈市 2 例。

    目前追踪到密切接触者 10394 人,已解除医学观察 1291 人,尚有 9103 人正在接受医学观察。
    (央视新闻微博)(湖北卫健委)
    mastcer
        38
    mastcer   2020-01-27 08:23:30 +08:00 via iPhone
    截至 1 月 26 日 24 时,国家卫生健康委收到 30 个省(区、市)累计报告确诊病例 2744 例,现有重症病例 461 例,累计死亡病例 80 例,累计治愈出院 51 例。现有疑似病例 5794 例。
    目前累计追踪到密切接触者 32799 人,当日解除医学观察 583 人,现有 30453 人正在接受医学观察。
    累计收到港澳台地区通报确诊病例:香港特别行政区 8 例,澳门特别行政区 5 例,台湾地区 4 例。
    另外,累计收到国外通报确诊病例:泰国 7 例,日本 3 例,韩国 3 例,美国 3 例,越南 2 例,新加坡 4 例,马来西亚 3 例,尼泊尔 1 例,法国 3 例,澳大利亚 4 例
    wy7305e
        39
    wy7305e   2020-01-27 08:29:15 +08:00 via Android
    这要逐日预报
    lekai63
        40
    lekai63   2020-01-27 09:03:49 +08:00 via iPhone
    楼主的预测结果至少今天看了已经相当精准了
    zanrenXu
        41
    zanrenXu   2020-01-27 09:20:14 +08:00
    今天是 2762 确诊。lz 的结果趋于实际结果,期待明天的预测结果!
    optional
        42
    optional   2020-01-27 09:37:46 +08:00
    @whwq2012 国外数据来源都没有,瞎猜的怎么信?
    ljy1398202806
        43
    ljy1398202806   2020-01-27 09:38:57 +08:00 via Android
    有点准啊,看看明天
    soinman
        44
    soinman   2020-01-27 09:48:17 +08:00 via iPhone
    @avastms 感冒和流感完全是两回事
    chaojie
        45
    chaojie   2020-01-27 09:51:41 +08:00 via Android
    会不会因为隔离措施,本来正常流感该死的没事,最终今年一季度中国死亡人数反而锐减哪??
    whwq2012
        46
    whwq2012   2020-01-27 10:01:40 +08:00 via Android
    @optional 人家国家自己确诊,怎么就不可信了?而且别人根本没有瞒报的必要。那澳大利亚,日本等国家确诊的都是他们胡编乱造的?
    optional
        47
    optional   2020-01-27 10:05:48 +08:00
    @whwq2012 样本太小
    wstart
        48
    wstart   2020-01-27 10:22:44 +08:00   ❤️ 1
    26 号 预测是 2770,实际上 2744。误差可以忽略不计。
    当前的状况对比昨天,变化不大。

    按照当前模型的推算:
    27 号 预测是 4051。范围在 [3,462,4,880]

    再次声明 :
    预测意义不是特别大,无实际的参考价值。

    @zli 感谢提供,论文我看了,但是思路和原理不一样。

    @lunafreya 本质是为了时序预测,只是刚好 LSTM 的拟合效果比较好,所以选了。
    数据维度低我也没办法,目前公开披露的数据很少,其他几个维度都抛弃后,只剩一个维度了。
    在一个维度的情况下,在 SARS 的数据里面也做了验证,LSTM 还是可用的。

    @Allianzcortex 很赞同你的观点,需要很多维度的变量,这里纯粹就是黑盒子进行。

    @ddzzhen 暂时不能,目前没有减缓的势头。如果有的话,那就是超过了偏离的误差 。

    @zdkmygod 目的一开始就说了,用作评估当前的状态。
    给出一个预估的值,如果小于这个值,说明情况变好,
    大于这个值则变坏,处于这个值,不好不坏。
    无法做最终的估测。
    yafoo
        49
    yafoo   2020-01-27 10:51:29 +08:00 via Android
    26 的预测准备
    zhangxs1989
        50
    zhangxs1989   2020-01-27 12:11:36 +08:00
    @PbCopy111 流感死人也不少吧,复旦有篇论文说这个
    mmixxia
        51
    mmixxia   2020-01-27 12:28:26 +08:00
    线性回归就好了吧
    testcaoy7
        52
    testcaoy7   2020-01-27 14:33:51 +08:00
    TL,DR
    如果实际的确诊人数 > 3337 说明疫情加重
    如果实际的确诊人数 < 2367 说明疫情正在被控制
    Fanatique32
        53
    Fanatique32   2020-01-27 18:45:28 +08:00 via iPad
    @whwq2012 外媒哪来的数据啊。 正规媒体引用的都是国内给的数据,你说的外媒是哪个外媒啊?给的数是多少?
    whwq2012
        54
    whwq2012   2020-01-27 19:06:31 +08:00 via iPad
    @Fanatique32 别的国家自己检测,自己公布,关国内什么事?合着全世界只有中国有资格检测?
    ilotuo
        55
    ilotuo   2020-01-27 19:44:54 +08:00
    tql。搭车问一下楼主。我想统计一个乡镇实际人口流入流出数,在哪里查什么资料比较好?
    Fanatique32
        56
    Fanatique32   2020-01-27 22:33:20 +08:00 via iPad
    @whwq2012 笑了 疫区在中国你哪来的统计数据。拿脑波检测的?
    danhahaha
        57
    danhahaha   2020-01-27 22:43:51 +08:00
    真正准确数据只有火葬场
    因为这个无法隐瞒,无法推延
    用这个数据 x 大致的死亡率才可以得出时间线上的真正数据,可惜死亡率现在无法确定
    所以这个办法只能等事后再用了
    maxwel1
        58
    maxwel1   2020-01-27 23:00:56 +08:00 via Android
    这算是…暴力破解了。传染是有数学模型的,人为控制加上去后微分方程应该是没有解析解,数值解是可以的
    whwq2012
        59
    whwq2012   2020-01-27 23:25:22 +08:00 via iPad
    @Fanatique32 笑了,你连别人的意思都没看懂就在瞎回复。
    discrete
        60
    discrete   2020-01-28 04:15:29 +08:00
    All models are wrong but some are useful. This one is wrong and not useful.
    areless
        61
    areless   2020-01-28 09:09:59 +08:00 via Android
    武汉数据加上~4000 多例了,准。
    shoreywong
        62
    shoreywong   2020-01-28 09:40:40 +08:00 via Android
    坐等楼主发明天的预测
    robinchina
        63
    robinchina   2020-01-28 10:01:56 +08:00
    坐等楼主发后面的数据
    qingyipei
        64
    qingyipei   2020-01-28 10:05:20 +08:00
    @whwq2012 样本太小
    cwyalpha
        65
    cwyalpha   2020-01-28 10:53:44 +08:00   ❤️ 1
    如果分成湖北和湖北以外的两部分分别跑一遍会不会更准?
    wy7305e
        66
    wy7305e   2020-01-28 11:00:01 +08:00 via Android
    截至 1 月 27 日 24 时,国家卫生健康委收到 30 个省(区、市)累计报告确诊病例 4515 例,现有重症病例 976 例,累计死亡病例 106 例,累计治愈出院 60 例。现有疑似病例 6973 例。from: 微信公众号 健康中国
    wstart
        67
    wstart   2020-01-28 11:40:44 +08:00
    声明:
    以上的观点和结论都属于依据当前的确诊人数所作的推断,毫无参考的意义和价值。
    如果数据刚好对了,不能说明什么,如果数据错了,证明这个模型真的不行。

    误差阈值是 0.17 ,达到阈值表示模型推测当前的疫情有变化。
    如果小于预测范围内的最低值,表示模型认为疫情在好转。
    如果大于预测范围内的最低值,表示模型认为疫情在恶化。

    26 号 预测是 2770, 范围在 [2367 , 3337] , 实际上 2744。误差可以忽略不计。
    27 号 预测是 4051。 范围在 [3462 , 4880] , 实际上 4515,误差在 0.10,

    还在误差内,所以不需要重新训练模型,按照当前的数据进行预测

    28 号 预测是 5914。 范围在 [5054, 7125] 。

    SARS 最终的感染人数(中国大陆+中国香港,澳门,台湾:5327+1755+1+307 = 7390 )
    数据来源: https://baike.baidu.com/item/SARS%E4%BA%8B%E4%BB%B6
    按这个计算,明天新型冠状病毒的感染人数就要接近 SARS 了。

    后续的预测就不再放出来了。
    有兴趣可以私聊我,拉群一起观测。

    @danhahaha 死亡率和病毒的致死性有关系把? 和当前的传播关系不太大。
    @ilotuo 交通局 公布的数据? 这个我还真不知道。
    @mmixxia 效果略差。我这里的时序步长是 3。

    感谢大家的支持。
    Bunian
        68
    Bunian   2020-01-28 11:40:48 +08:00
    老哥不能私聊,是否有联系方式?
    wstart
        69
    wstart   2020-01-28 11:48:01 +08:00
    @Bunian
    电报:gfddddqa
    yafoo
        70
    yafoo   2020-01-28 11:59:59 +08:00 via Android
    @artandlol 你对农村有什么误解吗?
    ocrown
        71
    ocrown   2020-01-28 13:10:21 +08:00 via iPhone
    怎么私聊?
    10Buns
        72
    10Buns   2020-01-28 22:17:02 +08:00
    @PbCopy111 谁告诉你没人因流感死亡的
    @haomaming 是统计方法不一样,不是不报。
    MrJie
        73
    MrJie   2020-01-28 22:31:57 +08:00
    小心被捉。。。zf 说了,不得传播官方未证实的消息
    wy7305e
        74
    wy7305e   2020-01-29 08:47:11 +08:00 via Android
    截至 1 月 28 日 24 时,国家卫生健康委收到 31 个省(区、市)累计报告确诊病例 5974 例,现有重症病例 1239 例,累计死亡病例 132 例,累计治愈出院 103 例。现有疑似病例 9239 例。
    yafoo
        75
    yafoo   2020-01-29 08:55:02 +08:00 via Android
    昨天数据又预测对了
    dovme
        76
    dovme   2020-01-29 09:31:09 +08:00 via Android
    @yafoo #75 楼主好厉害,预测都准了
    fox0001
        77
    fox0001   2020-01-29 09:53:38 +08:00 via Android
    关注了几天,不得不佩服楼主
    as3696928
        78
    as3696928   2020-01-29 11:01:20 +08:00 via Android
    老哥怎么私聊加群?不会啊……
    leekafai
        79
    leekafai   2020-01-29 11:28:35 +08:00
    佩服楼主!但结合现实情况来看,像是在预测确诊能力,而不是确诊人数
    qingyipei
        80
    qingyipei   2020-01-29 14:14:21 +08:00
    老哥拖个电报群呗 本着学习数学的精神
    as3696928
        81
    as3696928   2020-01-29 15:36:16 +08:00 via Android
    @qingyipei 上面有,但是原谅我不会看……
    dabaibai
        82
    dabaibai   2020-01-29 16:22:56 +08:00 via Android
    后面的数据 谁发一下 多久到 1 万?
    default7
        83
    default7   2020-01-29 17:40:16 +08:00
    @cwyalpha +1,感觉湖北省的数据已经不准了。
    Junewah
        84
    Junewah   2020-01-29 21:33:59 +08:00 via Android
    楼主牛逼了,不继续预测了啊,在哪个群交流哈
    wstart
        85
    wstart   2020-01-29 23:03:07 +08:00
    声明:
    以上的观点和结论都属于依据当前的确诊人数所作的推断,毫无参考的意义和价值。
    如果数据刚好对了,不能说明什么,如果数据错了,证明这个模型真的不行。

    误差阈值是 0.17 ,达到阈值表示模型推测当前的疫情有变化。
    如果小于预测范围内的最低值,表示模型认为疫情在好转。
    如果大于预测范围内的最低值,表示模型认为疫情在恶化。

    26 号 预测是 2770, 范围在 [2367 , 3337] , 实际上 2744。误差可以忽略不计。
    27 号 预测是 4051。 范围在 [3462 , 4880] , 实际上 4515,误差在 0.10,
    28 号 预测是 5914。 范围在 [5054, 7125] ,实际上 5974,误差可以忽略不计。

    所以不需要重新训练模型,按照当前的数据进行预测

    29 号 预测是 8684。 范围在 [7422,9981,] 。

    接来的两天(模型可信度跌出 50%,除非前一天预测的数据误差可以忽略):
    30 号 预测是 12905。范围在[11029,14833]
    31 号 预测是 18379。范围在 [15708,21125]

    如果数据和这个差不多,希望大家还是先多在家休息一阵子。
    Junewah
        86
    Junewah   2020-01-29 23:28:59 +08:00
    @wstart 牛逼,准备 24 点了,看下数据怎么样!
    BubbleNoodle
        87
    BubbleNoodle   2020-01-29 23:33:11 +08:00
    说英国什么学校研究得模型最后表示会有 13-27 ?
    roadwide
        88
    roadwide   2020-01-30 11:32:52 +08:00
    用简单的指数函数拟合得也很好
    ![7596afb252fcdd1635be163d60654e4.png]( https://i.loli.net/2020/01/30/Tcxbj4skmz3LJGv.png)
    lincanbin
        89
    lincanbin   2020-01-30 11:38:26 +08:00 via Android
    @zdkmygod 你这个死亡率计算方法有问题,病患里的大多数才刚发病两三天……
    你把患病超过 10 天的找出来算一下 10 天死亡率。
    roadwide
        90
    roadwide   2020-01-30 11:50:26 +08:00
    WinG
        91
    WinG   2020-01-30 12:28:15 +08:00
    @Junewah
    @wstart

    已经不准了,要不要重新训练模型?
    rockykingatthu
        92
    rockykingatthu   2020-01-30 17:08:15 +08:00
    @wstart 我这边无法复现实验结果哎。在 SARS 数据上,4 月 1 号到 5 月 31 号的数据。前 50 个左右训练,后 10 个左右预测。网络就是一层单向的 LSTM,time_step=3。
    model = Sequential()
    model.add(LSTM(units=hidden_size, input_shape=(look_back, 1)))
    model.add(Dense(units=1, activation='relu'))
    model.compile(loss='mape', optimizer=optim)
    不知道您用的什么优化器,lr,batch_size,hidden_size 怎么设置?另外 SARS 有个别天没有数据您有做特殊处理吗?
    wstart
        93
    wstart   2020-01-30 17:19:51 +08:00
    @rockykingatthu
    model.compile(loss='mse',optimizer='adam')
    先用 scaler_minmax 转化。

    @WinG 还在误差范围 。
    @roadwide 原理不同。
    alalida
        94
    alalida   2020-01-30 23:30:44 +08:00 via Android
    感谢大佬的付出,非常有用的讨论。几个建议,1.数据可以先排除掉湖北,湖北的数据前期大量失真,喂了白喂。2.可以引入 MERS 的韩国数据去训练。3.SARS 的数据可以用全球数据,一个非常完美的 s 型曲线。4.此类预测,数据是关键。
    alalida
        95
    alalida   2020-01-30 23:33:59 +08:00 via Android
    动态死亡率的估计,考虑到病情发展需要时间,可以用死亡除以(治愈+死亡)来大致估计,也是推荐用的省外数据,湖北的数据已经不能看了。目前计算在 15%,应该是时间还太短,长期个人倾向于 10%。
    alalida
        96
    alalida   2020-01-30 23:37:42 +08:00 via Android
    纯属学术讨论,可以拉 github,不推荐拉 tg 群,不然容易被别有用心的人炒作,而且 tg 暴露电话号码。
    sylvos
        97
    sylvos   2020-02-01 16:52:57 +08:00 via iPhone
    还准吗
    pythonee
        98
    pythonee   2020-02-03 10:33:54 +08:00
    图裂了
    vocaloidchina
        99
    vocaloidchina   2020-02-03 10:42:41 +08:00
    lz,还更新么
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3877 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 05:47 · PVG 13:47 · LAX 21:47 · JFK 00:47
    ♥ Do have faith in what you're doing.