打算构建一个无偏语料库,因此需要爬取各行各业相关的网站,想问一下大家知道哪些主要内容是文本的网站。 目前收集到的网站有大概以下几个分类
这里并没有列全,目前在抓的有 60 个网站左右,每天能获取 300K 个页面,单机。想问问大家有没有什么别的类目、行业、领域以及各分类下的文字类网站可供补充?无所谓内容质量好坏。
1
mushan099 2018-04-25 02:19:56 +08:00 via iPhone
其他类别不知道,影视那一栏我倒是了解不少(^-^)/
|
2
rock_cloud OP @mushan099 来几个例子?
|
3
flyz 2018-04-25 07:39:51 +08:00 via Android 4
@rock_cloud t66y sixinsix 91 avgle 大哥只能帮你这么多了。
|
4
jiangnanyanyu 2018-04-25 07:42:03 +08:00 via Android
我来一个吧,javbus,javlib
|
5
ob 2018-04-25 07:46:35 +08:00 via Android
cnbeta
|
6
aice114 2018-04-25 07:54:35 +08:00 via Android
v2ex
|
8
huluhulu 2018-04-25 08:31:05 +08:00 via iPhone
不是 1024 最值得吗?
|
9
jasonyang9 2018-04-25 08:42:34 +08:00
nytimes
arstechnica slashdot |
10
x86 2018-04-25 09:19:29 +08:00
avmoo
|
11
huiyifyj 2018-04-25 09:22:53 +08:00 via Android
影视竟然没有 douban
|
12
chroming 2018-04-25 09:23:13 +08:00 via Android
单机爬这么多是用了代理池?
|
13
logOo 2018-04-25 09:23:33 +08:00
pxxnhub
|
14
rock_cloud OP @huiyifyj 有,在论坛分类里,抓全站
|
15
rock_cloud OP @chroming 没有代理池,因为站点多,所以每个站慢慢爬,也不是问题
|
16
rock_cloud OP @aice114 我居然忘了 V 站,话说 V 站是不是有访问频次限制?
|
17
akira 2018-04-25 10:33:07 +08:00
3l 老司机
|
18
mhycy 2018-04-25 10:35:17 +08:00
|
19
torbrowserbridge 2018-04-25 10:43:57 +08:00
91
|
20
yense 2018-04-25 11:02:01 +08:00
煎蛋站长瑟瑟发抖...
|
21
rock_cloud OP @yense jandan 已加入豪华午餐,放心,速度非常慢,大约一分钟一个请求,不会占用很多流量的
|
22
rock_cloud OP @yense 额。。错了,应该是 20 秒一个请求。。。
|
23
greatghoul 2018-04-25 11:08:31 +08:00 via Android
pornhub
|
25
F1024 2018-04-25 13:22:40 +08:00
91 哈哈哈哈
|
26
yunye 2018-04-25 13:54:05 +08:00 via Android
抓谷歌比较划算,抓一个站啥都有了
|
27
rock_cloud OP @yunye Google 反爬做得好,不好抓,费时费力
|