请问一下各位,有针对 Github 本身的爬虫吗?

2020-01-28 10:45:55 +08:00
 Humbert

最近需要做一个 Github 的软件(毕业设计),需要大量爬各种 issue、pull request 等的信息,5000 次每小时的 Github API 频率完全不够用。
想问下有没有封装好的有关 Github 的爬虫?谷歌上搜到的都是 Github 上的爬虫库项目
没有的话就去自己写了..

5068 次点击
所在节点    程序员
18 条回复
phpfpm
2020-01-28 10:54:05 +08:00
你写个脚本注册账号生成 api token 不就得了。。

另,我记得如果不登录(没 token )访问 api 的话有次数限制,有 token 还会有限制吗?
JasonEWNL
2020-01-28 10:55:27 +08:00
一个 JS 一个 Ruby 的库,都是 GitHub 上的 GitHub API 库。

https://github.com/github-tools/github
https://github.com/piotrmurach/github
tikazyq
2020-01-28 11:06:52 +08:00
自己写吧,很简单的,用 scrapy 的 CrawlSpider,注意反爬限制
charlieputon
2020-01-28 11:12:47 +08:00
github 不是有 api 吗。。不过是 graphql 的。。
VDimos
2020-01-28 11:47:48 +08:00
github 是公开 api 的吧
cmqwan
2020-01-28 12:06:10 +08:00
github 不让爬,有 robots 协议。
iYu
2020-01-28 12:14:28 +08:00
5000 次每小时的 Github API 频率完全不够用。 确认是毕业设计么?如果是的话,感觉有点厉害啊。 这是需要多少数据啊。爬个几天几夜都不够么。
oott123
2020-01-28 12:19:25 +08:00
你可以从这两个数据源获取数据:

GHTorrent: http://ghtorrent.org/downloads.html
GH Archive: https://www.gharchive.org/

他们提供了丰富的数据信息,较为方便的查询方式,以及简单的归档下载功能。不用自己爬……
Humbert
2020-01-28 14:03:47 +08:00
@phpfpm 好的,感觉是个办法 hh
Humbert
2020-01-28 14:04:06 +08:00
@charlieputon 也有 RESTful 的,但是次数有点限制
Humbert
2020-01-28 14:04:26 +08:00
@cmqwan 好的,我还是考虑从 API 层面解决吧
Humbert
2020-01-28 14:05:20 +08:00
@iYu 因为这个之后导师要用的,所以得考虑下数据量大的情况..
Humbert
2020-01-28 14:05:31 +08:00
@oott123 !谢谢
Humbert
2020-01-28 14:06:23 +08:00
@phpfpm 是有的,5000 次每小时
sunwei0325
2020-01-28 17:34:27 +08:00
有个同事把代码传到 github 上, 公司安全部门很快就发现并通报了, 估计是自己实现的吧
everydaystruggle
2020-01-28 22:57:20 +08:00
楼主或者楼主导师是做 mining software repository 的么?
lazygod
2020-01-29 03:48:27 +08:00
@sunwei0325 用公司的电脑上床有记录的
SampleNaive
2020-01-29 19:32:59 +08:00
当然有啊,不然那些动不动几千 star,才几十个 issue 的项目怎么来的?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/640596

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX