怎么用 Python 抓取上市公司的财务数据呢

2020-07-29 23:11:15 +08:00
 iwukong
怎么用 python 抓取上市公司的财务数据呢

我想抓取港股 美股的

港股是 PDF 美国是 HTM
6213 次点击
所在节点    Python
25 条回复
locoz
2020-07-29 23:47:07 +08:00
首先,你自己怎么看到这些数据?
Oilybear
2020-07-30 00:03:51 +08:00
仅个人观点,HTM 不太清楚,PDF 全自动化多少会有些问题。目前应用方数据更多是直接上一下金融数据提供商( wind 万德)购买数据接口
black11black
2020-07-30 00:21:21 +08:00
理论上如果有网站展示这些数据,为了向普遍用户展示,是不太做严格的权限管理的,所以简单爬一下就什么都有
TypeError
2020-07-30 00:24:21 +08:00
不嫌麻烦直接去 SEC 下载财报文件、招股书啥的,然后自己解析

嫌麻烦去美股券商网站爬虫看看
reayyu
2020-07-30 00:34:09 +08:00
Wind 或者 bloomberg 吧
PbCopy111
2020-07-30 01:07:13 +08:00
抓披露易上面的么?
iwukong
2020-07-30 07:20:36 +08:00
@PbCopy111 是的 或者美国证券协会 或者 国内沪深的数据
iwukong
2020-07-30 07:22:22 +08:00
@black11black 我还在学习 python 基础 不太懂怎么爬 有这方面教程吗
iwukong
2020-07-30 07:24:33 +08:00
@Oilybear 那成本可高了 我用这些数据做投资分析 为我投资做辅助用
murmur
2020-07-30 08:25:07 +08:00
@iwukong 出钱请人抓就行,你都投资了,这点技术就不值得投资么
iwukong
2020-07-30 08:29:11 +08:00
@murmur 在学东西这个过程 朋友
hakono
2020-07-30 08:43:45 +08:00
楼上一些人是不知道上市公司的财务报表,会直接在官网公布的吧(这是上市公司的义务
财报这东西我跟楼主你说,没办法的,是不可能自动抓取的。不同公司雇佣的财务会计公司不同,财报的格式不同,各种项目名称也会不同,用的统计方式也会不同。一些关键数据甚至是夹杂在财报的一些文本段落里,或者一个数据多个版本,或者给你个数据然后下面一行小字注解下,要做个换算才是真正的数据。
因为财报会影响股价,所以上市公司都会想法设法在财报里做手脚,用各种不同的计算方法让财报表面数据好看,而这些只能靠有经验的人才能发现,是不可能自动化的

毕竟你要知道这种自动财报分析软件,真能做早就有人做了。如果你做出来了,你都不用投资了,光成立个公司卖服务就能财务自由了
takemeaway
2020-07-30 09:59:35 +08:00
这应该很简单吧,html 的还不容易? PDF 的有插件可以转 HTML,也可以直接识别。
zwj2885
2020-07-30 10:07:38 +08:00
@hakono 是的,哥们是说到点上的人。之前就考虑过用 AI 自然语言处理来读懂财报,github 搜了个遍,也没遇到好的开源项目。
L2AKnG8GXx60bc6P
2020-07-30 10:36:52 +08:00
这个坑我研究过,港股的 pdf 就不要想了,无解;美股的 sec 有结构化的,爬就行了;我 A 的 pdf 是有解决方案的,我之前写过一个 naivepdf 的 python 库,后来发现坑太多,就搁置了在 github 上。
L2AKnG8GXx60bc6P
2020-07-30 10:39:01 +08:00
@hakono 其实 90%的都差不多,排名前十的会计师事务所基本上把 A 股的大部分公司瓜分了,港股就是个奇葩。
lewis89
2020-07-30 11:00:25 +08:00
财务美化 变相降低折旧率 手法太多 你抓了也没毛线用..
sudoy
2020-07-30 11:19:47 +08:00
用 python 抓取数据本身不难,有一大堆库和工具可以用,简单的就用[scrapy]( https://scrapy.org/) 好上手。难度在于:(1) 就像 #12 楼说的报表本身的解读比较难; (2) python 解析这些 PDF 的时候难免识别出错。特别是那些直接把图片做成 pdf 的,对于这种很多 python 库都用调用[谷歌 OCR 引擎]( https://github.com/tesseract-ocr/tesseract), 我试过,这种对于像素不清晰的很容易识别错。( 3 )就算你算出合理股价,也不一定有帮助。我订阅雅虎财经付费版,他们都帮我计算出合理股价( Fair Value),但是股票即便高于合理价格一样猛涨,比如特斯拉,而很多低于合理价格的股票,却狂跌,比如航空公司。当然了,计算出合理股价,毕竟还是有帮助的,至少能知道你买入的点是高还是低,心里有个数。

![]( )
Sunben
2020-07-30 11:21:30 +08:00
import requests
from bs4 import BeautifulSoup
import pandas as pd
ytmsdy
2020-07-30 11:43:39 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/694172

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX