Scylla——开源免费的优秀代理 IP 池:自动验证、JSON API、基于 React 的 Web UI、Docker 支持

2018-05-27 07:05:54 +08:00
 WildCat

GitHub:https://github.com/imWildCat/scylla

中文文档:https://scylla.wildcat.io/zh/latest/

自己是一个爬虫爱好者,有时候爬虫写的太过强大了被目标网站封了(笑)。所以就萌生了用代理 IP 的想法。很可惜很多开源代理 IP 池都是没有持续维护的,代码也比较奇怪。于是自己就写了一个。特性大概有:

欢迎在贴中留下您的邮箱,我可以发送你 demo 地址(暂时不打算公开发布)。如果您想留邮箱,请注意:

附:几个截图 demo

截图 1: Web UI (代理 IP 列表)

截图 2: Web UI (代理 IP 的地理分布)

12075 次点击
所在节点    分享创造
93 条回复
cnyang
2018-05-27 16:55:05 +08:00
aGFoYUBvZmZpY2UyMDE2LnNpdGU=
不胜感激
hlwjia
2018-05-27 16:56:12 +08:00
aGx3amlhQGZveG1haWwuY29t

谢谢
IllBeBack
2018-05-27 16:58:43 +08:00
谢谢
enByZWdpc3RlckBnbWFpbC5jb20=
yazoox
2018-05-27 17:09:36 +08:00
eWF6b294QHNpbmEuY29t

谢谢!
JasonYo
2018-05-27 17:22:07 +08:00
Mjc3MTc5MjMwMUBxcS5jb20=

给力!大兄弟,多谢
j0hnj
2018-05-27 17:52:19 +08:00
bmlnZWxjaGlhbmdAb3V0bG9vay5jb20=

代码不错~
byron
2018-05-27 18:05:34 +08:00
Ynlyb25qaWFAZ21haWwuY29t

吼啊。
chenggiant
2018-05-27 18:10:05 +08:00
Y2hlbmdjaGlidEBnbWFpbC5jb20=

赞!
echopan
2018-05-27 18:10:13 +08:00
ZWNob3BhbjEyMzRAaG90bWFpbC5jb20= 谢谢
WildCat
2018-05-27 18:37:10 +08:00
@golmic
关于 IP 验证策略:目前的策略有点过于简单,由于这个项目已经写了一个月了,决定先发出来(骗一波 stars )让自己更有动力去写 =。=
我会在近期完善验证策略,并且把验证策略的文档完善: https://github.com/imWildCat/scylla/issues/16

@binux 原来这个名词叫 forward proxy,感谢!我其实一开始是有这样的想法的,但是有一些担心所以没在初版实现:
- 担心自己实现的 forward proxy 性能不足比较鸡肋
- 担心 XX 找到 G 点说我 XXX (你懂)
- 实现比较 rough 可能没什么用
- 还有就是如何给 clients 分配代理也是一个问题。一开始可以考虑随机分配,但是我理想的情况是:
- a. clients 的 HTTP Request 带一个类似 hash 的 header,固定 hash 对应固定代理
- b. Scylla 里自动分析请求的 HTTP Header,比如针对 Cookies 中的 session 做一次 hashing。如果判定是同一个 session 的请求,就用同一个 IP。难点在于如何判断 session id。

我考虑先加入随机分配代理的 forward proxy: https://github.com/imWildCat/scylla/issues/17



@airyland 请发下 logs,非常感谢!



@zqjilove 收到需求,下一个小版本就加入: https://github.com/imWildCat/scylla/issues/18
momocraft
2018-05-27 18:42:05 +08:00
bWVAam9rZXN0ZXIuaW8=

感谢 (应该不会用很多)
bbbb
2018-05-27 18:55:35 +08:00
aGVsbG9oZnlAZ21haWwuY29t
SingeeKing
2018-05-27 18:56:21 +08:00
aW1zaW5nZWVAZ21haWwuY29t
WildCat
2018-05-27 19:08:56 +08:00
> @chroming 提问: 跟这个比有什么优势吗? https://github.com/SpiderClub/haipproxy

既然你诚心诚意的发问了,那我就王婆卖瓜下啦( 233 ):
对比 https://github.com/SpiderClub/haipproxy,这个项目的想法如下:
1. 更简单的依赖,不需要 scrapy-splash 或者 redis。
2. 更优秀的文档,包括代码文档(虽然目前不是很完善)。
3. 我写了一些测试,尽力保证项目的可用性、维护性。
4. 完善的 Community profile ( https://github.com/imWildCat/scylla/community ),对比: https://github.com/SpiderClub/haipproxy/community。即使我以后不维护这个项目了,也希望尽可能方便大家参( jie )与( pan )
5. README 和文档里使用“盘古之白”(中文和西文字符标点之间注意加了合适的空格,适合强迫症患者阅读),参见: https://github.com/vinta/pangu.js/blob/master/README.md
6. 一个 `scylla` 命令或者其他 docker 命令即可启动,没那么多幺蛾子命令: https://github.com/SpiderClub/haipproxy#%E6%9C%8D%E5%8A%A1%E7%AB%AF
fy
2018-05-27 19:18:55 +08:00
资瓷一下。

ZnkwQHFxLmNvbQ==
avichen
2018-05-27 19:29:01 +08:00
YXZpY2hlbkAxMjYuY29t

谢谢
armysheng
2018-05-27 21:17:19 +08:00
YXJteXNoZW5nQGdtYWlsLmNvbQ==
mikezy123
2018-05-27 22:01:56 +08:00
am95emVuZzU1NUBnbWFpbC5jb20=

感谢
breaklayer
2018-05-27 22:08:41 +08:00
YnJlYWtsYXllckAxNjMuY29t

感谢
davidf
2018-05-27 22:17:11 +08:00
c3psZGZAb3V0bG9vay5jb20=

谢谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/458054

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX