我有个紧急的一次性扫描项目需要外包，有人可以接私活吗？项目需求很紧，工作量不大。

我有 3500 个网站的顶级域名，现在需要获取每个 website 内的全部子 url，并爬取子 url 内的 html 文字信息。

举例来说，以 www.giftofwings.com 为例子：得到一堆类似于 http://www.giftofwings.com/cgi-bin/SoftCart.exe/cam.html?L+mystore1+bkcm8438ffb2f5b2+1507421651 http://giftofwings.com/specials.html 的 url，注意这里不要.js 和.css 等，只要页面。拿到这个 list 后在做一个简单的 html 爬取，最后提交的是这些 html 的源码，只要文字信息，不爬任何多媒体，所以应该比较快。

详讯麻花腾：腰腰霸腰霸叁叁玲叁伍 null。

gdtv

2018-04-22 12:59:30 +08:00

假如这 3 千多个网站没有任何防爬虫措施，并且这 3 千多个网站服务器性能扛得住爬虫，那么的确挺简单的。

exalex

2018-04-22 13:40:04 +08:00

有个不是很紧急的少量页面的项目需要外包，有人可以接私活吗？项目需求不算很紧，工作量很小。
inksong • 53 天前

我有个紧急的一次性 mapreduce 项目需要外包，有人可以接私活吗？项目需求很紧，工作量很小。
inksong • 80 天前

我有个紧急的一次性爬虫项目需要外包，有人可以接私活吗？项目需求很紧，工作量很小。
inksong • 88 天前

戏精？已 block

Leigg

2018-04-23 08:22:02 +08:00

@exalex 我联系了他，说价格上 k，估计被吓到了，直接不理人了。。我也是醉了，自称一个博士给人干活，就这尿性。。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/448842

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.