spider_news_cctv
2002 年至今的所有新闻联播内容,总计 4W 多
https://github.com/hailong0707/spider_news_cctv
spider_news_all
证券日报,证券时报,证券日报网,南华早报,中国经营网,经济观察报,财经网,证券时报网,中证网,华尔街见闻 相关模块的整站爬取。证券日报,证券时报数据量可观,近 70W.
https://github.com/hailong0707/spider_news_all
spider_news_gov
中国发展改革委员会 内容爬取已经文档下载,包含对 Word 文档的内容解析。
https://github.com/hailong0707/spider_news_gov
spider_news_finance
SinaFinance, FTChinese, CFI 三个财经类网站的数据爬取
https://github.com/hailong0707/spider_news_finance
提供工具的参考学习,数据的用途等其他相关风险,自负。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.