V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lu18887
V2EX  ›  程序员

最近沉迷股市,请问 600G 的文本 tick 数据,用什么数据库存储性价比更高?

  •  1
     
  •   lu18887 · 2014-10-21 11:03:19 +08:00 · 14401 次点击
    这是一个创建于 3446 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我只有两台PC,VPS的CPU和内存比较小(用大的不划算,网络延迟也比较难受),这些数据打算存储起来然后进行一些计算分析,用什么样的方案比较合适?
    第 1 条附言  ·  2014-10-21 21:25:55 +08:00
    那个渠道只能拿到最近4年的数据,所以数据量小了很多…………发愁了,其他的数据去哪拿……
    79 条回复    2014-10-22 20:14:43 +08:00
    lu18887
        1
    lu18887  
    OP
       2014-10-21 11:13:59 +08:00
    硬件软件层的建议均可,新购硬件不要贵的……
    lu18887
        2
    lu18887  
    OP
       2014-10-21 11:14:16 +08:00
    @lu18887 预算少,不花超过1K的RMB
    royzheng
        3
    royzheng  
       2014-10-21 11:23:07 +08:00   ❤️ 1
    用NOSQL吧 能够让你硬件的成本压缩到最低 前提你会搞程序。。。
    drush
        4
    drush  
       2014-10-21 11:25:23 +08:00
    楼主有咩股推荐
    lu18887
        5
    lu18887  
    OP
       2014-10-21 11:25:27 +08:00
    @royzheng 也在看这方面资料。
    lu18887
        6
    lu18887  
    OP
       2014-10-21 11:25:45 +08:00
    @drush 这个没有呢……一直在套牢中。
    P9
        7
    P9  
       2014-10-21 11:30:36 +08:00
    不会是A股吧?
    lu18887
        8
    lu18887  
    OP
       2014-10-21 11:35:47 +08:00
    @P9 就是A股
    Zhang
        9
    Zhang  
       2014-10-21 11:37:47 +08:00
    A股会永久性套牢。
    royzheng
        10
    royzheng  
       2014-10-21 11:38:52 +08:00
    那就行啦 多简单啊 什么阿里云 亚马逊的买个nosql 如果是自己用的话写个客户端就能用了
    royzheng
        11
    royzheng  
       2014-10-21 11:39:46 +08:00
    看你数据结构了 如果可以用nosql 速度杠杠的 要不然你这个查询起来会很慢
    lu18887
        12
    lu18887  
    OP
       2014-10-21 11:40:14 +08:00
    @royzheng 好贵的,按内存,CPU和流量收费……
    lu18887
        13
    lu18887  
    OP
       2014-10-21 11:41:25 +08:00
    @Zhang 知道真相的我……
    liunan1321
        14
    liunan1321  
       2014-10-21 11:41:34 +08:00
    楼主哪里搞的数据呀
    lu18887
        15
    lu18887  
    OP
       2014-10-21 11:43:21 +08:00
    @liunan1321 网站上抓的……企鹅
    mulog
        16
    mulog  
       2014-10-21 11:48:54 +08:00   ❤️ 8
    我是不懂啦 但是我感觉A股这种市场 你分析数据还不如random.randint(600000,603000)...
    aru
        17
    aru  
       2014-10-21 11:50:08 +08:00
    用mysql或者postgresql 都可以,请记得合适的分表,通常是根据时间或股票代码来分
    合适的架构更重要
    aru
        18
    aru  
       2014-10-21 11:51:26 +08:00   ❤️ 1
    预算用来加内存或ssd吧,计算用的临时数据考虑放内存或ssd,具体根据你的程序要求
    royzheng
        19
    royzheng  
       2014-10-21 11:53:52 +08:00
    你自己都没说清楚具体用途 是否就你一个人用等等的
    qichunren
        20
    qichunren  
       2014-10-21 12:18:59 +08:00
    你用什么派别的策略呀?
    barbery
        21
    barbery  
       2014-10-21 12:22:47 +08:00
    lz,是日K线数据吗?
    zhangshine
        22
    zhangshine  
       2014-10-21 12:30:49 +08:00
    tick数据搞成日k或4小时就好了,大大减少数据了而且tick数据也没有什么用,怎么着也要4小时以上周期吧
    lu18887
        23
    lu18887  
    OP
       2014-10-21 12:37:38 +08:00
    @royzheng 自用,先把数据存起来,后面再慢慢找算法选股。就是这样
    lu18887
        24
    lu18887  
    OP
       2014-10-21 12:38:14 +08:00
    @zhangshine 有些算法需要更精确的数据,4个小时太粗了。跟日K没太大区别了
    lu18887
        25
    lu18887  
    OP
       2014-10-21 12:39:24 +08:00
    @aru 这是必须的,两个维度,股票代码维度和时间线维度。
    lu18887
        26
    lu18887  
    OP
       2014-10-21 12:39:48 +08:00
    @qichunren 暂时分析的算法没想好,先把数据存储起来再说。
    lu18887
        27
    lu18887  
    OP
       2014-10-21 12:42:06 +08:00
    某天某股票的数据样例如下

    时间 价格 价格变动 成交量(手) 成交额(园) 买卖性质
    09:25:00 11.56 0.02 498 575688 买盘
    09:30:03 11.56 0.00 352 407128 买盘
    @barbery
    lu18887
        28
    lu18887  
    OP
       2014-10-21 12:43:19 +08:00
    @mulog 股票太多,想选出好的。
    eriale
        29
    eriale  
       2014-10-21 12:46:25 +08:00
    挑战A股,是真的勇士。
    merlin852
        30
    merlin852  
       2014-10-21 12:50:13 +08:00
    沪深 tickdata 每交易日数据量大概1-2G,每年差不多300G,你这两三年的量?
    我们是直接oracle处理,也还好,我们算法不复杂
    建议用MonetDB,Sybase, DB2等列式数据库处理,可能速度上会好点
    lu18887
        31
    lu18887  
    OP
       2014-10-21 12:53:13 +08:00
    @merlin852 我拿到的数据是免费的,没你的详细……
    关于容量,122M,是昨天拿到的大小……我根据这个估算的2000年到2014年总计,是个初略估计。
    我拿到的数据是没有挂买盘和挂卖盘的数据的,只有时间,成交价格,笔数,金额以及买盘性质。



    @eriale

    我想明白了,挑战A股不敢说,挑战下自己是真的、
    ven
        32
    ven  
       2014-10-21 13:10:10 +08:00
    数据分析,应该在国外市场下手吧,国内的太诡异了
    lu18887
        33
    lu18887  
    OP
       2014-10-21 13:13:25 +08:00
    @ven 国外的分析了也好买,没利益驱动……
    hntee
        34
    hntee  
       2014-10-21 13:14:35 +08:00
    楼主可以分享一下数据或者抓数据的脚本嘛?
    aru
        35
    aru  
       2014-10-21 13:14:57 +08:00
    很推荐用mysql的myisam 表来存储
    em70
        36
    em70  
       2014-10-21 13:26:35 +08:00
    长期来看,股票年收益超过10%就很不错了,这年头几十倍,上百倍的资产增值只能在科技创业圈出现
    imn1
        37
    imn1  
       2014-10-21 13:34:06 +08:00
    一般股票计算很少需要联动,顶多就是指数和个股联动分析,所以循这个思路分表就足够了

    当然不排除你有很高深的能力,或者内部消息,能够探测某些个股之间存在联动关系,那这个数据结构就相对复杂了
    mahone3297
        38
    mahone3297  
       2014-10-21 13:39:15 +08:00
    lz哪里抓的数据?
    soulteary
        39
    soulteary  
       2014-10-21 13:51:09 +08:00
    @mulog 这回答好机智。


    @lu18887 实时性似乎没有要求的话,mysql似乎问题也不大,又不是一只股票数据那么多...如果愿意买硬盘,可以考虑用mongo,当天的数据可以直接对象形式存redis中。

    另外,可能直接存文件或者csv也是不错的方案,(如果大量点数据,以年月日分层级建立目录的话,请上块至少128g的ssd把近期数据从机械上挪过来)
    WildCat
        40
    WildCat  
       2014-10-21 13:57:20 +08:00 via iPhone
    算法分析国内数据也是醉了
    wodemyworld
        41
    wodemyworld  
       2014-10-21 14:16:01 +08:00
    1000不可能
    lu18887
        42
    lu18887  
    OP
       2014-10-21 14:21:53 +08:00
    @em70 没那个眼光啊……
    lu18887
        43
    lu18887  
    OP
       2014-10-21 14:22:39 +08:00
    @imn1 正解。但是所有的数据在初期都应被分析
    lu18887
        44
    lu18887  
    OP
       2014-10-21 14:23:51 +08:00
    @mahone3297 企鹅
    @soulteary 肯定要跨天综合分析的嘛。实时性无要求。
    mahone3297
        45
    mahone3297  
       2014-10-21 14:26:21 +08:00
    @lu18887 企鹅具体哪个页面?有点详细信息吧。。。
    lu18887
        46
    lu18887  
    OP
       2014-10-21 14:38:51 +08:00
    @mahone3297
    http://stockhtm.finance.qq.com/sstock/quotpage/q/600146.htm#detail

    成交明细的右边,4点以后可以下载。
    suliuyes
        47
    suliuyes  
       2014-10-21 15:39:20 +08:00   ❤️ 1
    A股因为T+1和大量庄股,数据分析起来非常的失真…… 美股因为T+0和大量机器人高频交易,相对来说要好得多,不过在那里你的对手是华尔街的一帮数学算法天才和程序天才们……
    FreeBSD
        48
    FreeBSD  
       2014-10-21 15:40:26 +08:00 via Android
    @lu18887 @merlin852
    求数据共享
    icemelon
        49
    icemelon  
       2014-10-21 16:48:28 +08:00
    tick数据对A股操作没什么作用。只有T+0的产品适合分析tick,有双向的就更好了。楼主想玩的话还是建议从期货开始玩玩,但国内期货的手续费异常之高,基本能吃掉高频交易的利润,难度很大。楼主真想走交易这条路的话慎重,希望用来投资也要慎重考虑。
    lu18887
        50
    lu18887  
    OP
       2014-10-21 16:50:19 +08:00
    @icemelon 谢谢!期货风险太大,暂不考虑涉足,看的出你对交易这块也是熟悉的了,有哪些技术学习路线么?
    imn1
        51
    imn1  
       2014-10-21 16:53:56 +08:00   ❤️ 2
    @suliuyes
    这个问题其实两看,A股虽然T+1,但有张跌停板制度,而且相对来说10%的限制额度很低,庄家获利必须进行多日连续操作,就是要产生隔日重复行为,有足够技术可以进行盘后追踪
    美股T+0,必须要获得秒级数据才能准确分析,这就意味着分析要盘中进行,机器的处理能力以及获得数据的速度、频率都会严重影响分析结果,比T+1难多了

    再者,之前玩过权证的散户都知道,T+0下单散户是根本追不上大户(或庄家)的,比别人晚一秒就可能造成连续亏损
    还有T+0大资金用户是可以做对冲操作的,但散户只能单向操作的就很吃亏了
    个人真的觉得T+0散户自行操作会很惨~

    最后,美股就没有庄家么?只要在游戏规则范围内就有庄家,因为游戏本来就有庄家嘛
    庄家的影响力主要受二级市场的流通量影响,流通量太大,盘面就难以把控,当然也不排除多方资金协同操作

    A股是T+1交收,美股虽然是T+0买卖,但却是T+3交收,这个对操作和分析也有一定影响的……
    lu18887
        52
    lu18887  
    OP
       2014-10-21 17:15:20 +08:00
    @imn1 我做的就是日终处理,不是实时的,因为实时的数据我拿不到……
    minotaur
        53
    minotaur  
       2014-10-21 17:32:09 +08:00
    hdfs+hivesql吧。反正是离线分析,又不要求实时性。
    woshixiaomao
        54
    woshixiaomao  
       2014-10-21 17:50:52 +08:00   ❤️ 1
    infobright
    qichunren
        55
    qichunren  
       2014-10-21 19:14:36 +08:00   ❤️ 1
    你盘后分析每一笔成效明细,然后是基于什么思路决定第二天的操作呢?有哪个因素需要考虑呢?
    lu18887
        56
    lu18887  
    OP
       2014-10-21 19:20:14 +08:00 via iPhone
    @qichunren 这个还没想好。
    @minotaur 有人给我推荐了,不过这方面我不懂,如果学习的话,是很好的练手机会。😄
    esile
        57
    esile  
       2014-10-21 20:01:41 +08:00 via iPhone
    可以试试ssdb
    ChanneW
        58
    ChanneW  
       2014-10-21 20:04:08 +08:00
    1K 以下只能放本地
    ChanneW
        59
    ChanneW  
       2014-10-21 20:04:36 +08:00
    或者百度网盘
    icemelon
        60
    icemelon  
       2014-10-21 21:17:14 +08:00
    @lu18887 棉花煤炭什么的几千就可以玩,一手一手交易就是,风险都是拿仓位控制的,没有绝对的安全也没绝对的风险。在我看来把钱放市场里过夜才是风险。玩股票真不如买腾讯 谷歌股票放那不动了。技术流的出路只有高频,所以你拿技术析股票是没什么意义的,不建议尝试。
    angelface
        61
    angelface  
       2014-10-21 21:29:29 +08:00 via iPhone   ❤️ 1
    我真心觉得a股就按@mulog的方案就可以了,
    因为a股从来不是正常走势走(8年股龄,套牢n十万)
    hongnet
        62
    hongnet  
       2014-10-21 22:20:42 +08:00
    @lu18887 有什么选股的方案啊?
    nooper
        63
    nooper  
       2014-10-21 22:42:40 +08:00   ❤️ 1
    你的数据是无偏差还是有偏差。
    lu18887
        64
    lu18887  
    OP
       2014-10-21 23:21:19 +08:00
    @nooper 有偏差。
    lu18887
        65
    lu18887  
    OP
       2014-10-21 23:21:50 +08:00
    @hongnet 还没的。
    alsotang
        66
    alsotang  
       2014-10-21 23:27:40 +08:00
    hbase 无疑。或者试试我们大淘宝的 odps?我们离线计算都用它,在阿里云那里可以买得到。不过你这 600G 上传起来,网络是个大问题。
    wske
        67
    wske  
       2014-10-21 23:28:55 +08:00 via iPhone
    @icemelon 国内期货市场的实际手续费在全世界来说,都属于极低的水平。
    就算你算上国外某些交易所的手续费返还做比较,国内的手续费标准依然是偏低的。
    如果你觉得国内手续费高,可能有几种原因:在非四大期货交易所交易(郑州 上海 大连 中金);没有真正交易经验,没有去和经纪商要求降价;道听途说
    icemelon
        68
    icemelon  
       2014-10-22 00:29:55 +08:00 via iPhone
    @wske 呵呵,还有觉得手续费很低的道理,真是奇葩,你有拿自己钱交易过?都是书上看的?本人股指期货交易经历,日内来回起码几十次吧,盈利基本被手续吃光。小弟不才资金量不大,拿不到反佣。别动不动就拿个人投机者和机构比,也别拿长线和日内短线比。
    icemelon
        69
    icemelon  
       2014-10-22 00:37:06 +08:00 via iPhone
    @wske 还有国内外手续费的问题,国内手续费比国外低?你在逗我,那怎么国外各大高频交易公司不来中国捞金?
    yeshiwei
        70
    yeshiwei  
       2014-10-22 00:40:19 +08:00
    去做外汇吧。www.oanda.com可以拿十年的5s tick.
    oanda是全世界最大的零售商。
    13k
        71
    13k  
       2014-10-22 07:34:05 +08:00 via iPad
    让 Google和雅虎储存就行啦,按需取用,或者R下面有个包直接去Google和雅虎数据的股票数据
    lu18887
        72
    lu18887  
    OP
       2014-10-22 08:08:08 +08:00 via iPhone
    @13k 历史的数据也能拿到明细吗?时分秒交易笔数金额…
    imn1
        73
    imn1  
       2014-10-22 08:51:11 +08:00
    真正的分笔数据是拿不到的,这个好象是国家机密层面
    其实从交易方式得出这个结论,买入必须整手,但卖出是可以散股的,因为有时候配送关系让持有人手头的股票数量不一定是完整的一手。所以,交易时是在交易所通过电脑整合完成,交易时经常见到“部分成交”而不是一次完成交易,也说明交易过程并非每笔交易都是一对一交易。故此,每笔数据只可能在交易所的机器从席位号得出,这个好象是不能外流的
    现在各种客户端、数据中心提供的分笔数据,其实是把极短时间内的交易细分,模拟得出
    淘宝或某些网站有历史分笔数据销售,想买全(其实也只是2000年以后)的话估计花费不菲~
    13k
        74
    13k  
       2014-10-22 09:22:36 +08:00
    @lu18887 没有时分秒那么细
    lu18887
        75
    lu18887  
    OP
       2014-10-22 10:13:48 +08:00
    @imn1 是的,是有一定程度的整合,但是这已经足够细了。淘宝上一年卖2k左右的价格……
    macemers
        76
    macemers  
       2014-10-22 14:26:48 +08:00
    请问数据现在是用什么方法存的?文本文件?

    另外是某几只股票还是相关性强的一揽子股票还是全部股票的数据呢?
    lu18887
        77
    lu18887  
    OP
       2014-10-22 14:33:12 +08:00
    @macemers 文本文件,所有股票
    qichunren
        78
    qichunren  
       2014-10-22 17:51:48 +08:00
    我觉得你还是先想好策略是什么,然后再考虑下载盘后成交明细数据。
    lu18887
        79
    lu18887  
    OP
       2014-10-22 20:14:43 +08:00
    @qichunren 巧妇难为无米之炊啊……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1594 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 16:53 · PVG 00:53 · LAX 09:53 · JFK 12:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.