免费帮大家开发爬虫或者做数据分析，简单的数据挖掘

2017-11-09 15:59:03 +08:00

golmic

看到 https://www.v2ex.com/t/404899 这个帖子作者在家无事，想想自己平时晚上和周末也很闲，自己擅长数据方面的工作，有需要的朋友我可以帮忙开发，当然是免费的！

顺便推荐一下做的网站，http://pyanalysis.org/ 大家都是些喜欢数据开发的朋友，现在有 200+注册用户，100+活跃用户。喜欢的朋友可以加我微信拉你进群，大家一起交流。

放邀请码数枚

7fa9def7-ff8f-4906-bafd-06fce099911f

8bbec81c-af1c-4d54-b1fb-0620820e10d9

5cf18335-653c-4bea-b52a-c4c7f85cb5cf

c7f8608c-811d-4467-83f5-2d7329d40ab6

ac5fbf4e-fc9c-4a3c-80ba-1235b3e50b04

b4da4773-de16-48e1-8f08-e4100a5b1713

ec20ed7d-735d-4336-a44d-6bc3adfe67df

b1241d69-68e9-4259-8a1f-61e6b51cb83f

a1e10035-b698-4e61-8b4b-11f26b6c5500

没抢到邀请码的小伙伴可以加我微信我给你。微信号在网站上有哦。

6472 次点击

所在节点

程序员

67 条回复

golmic

2017-11-10 13:10:51 +08:00

@ziokai #39 这个不难，我做过爬某个用户的最新微博的爬虫，其实差不多。

sacuba

2017-11-10 15:54:10 +08:00

求教那种动态跳转的页面如何爬取？某个页面请求后先返回 202，然后再页内跳转一次才能显示正确内容，url 不变。第一次返回的页面大部分为混淆加密后的数据。之前一直用 scrapy 爬取，后来就不行了

golmic

2017-11-10 15:56:15 +08:00

scrapy 默认会自动跟进 302 的，你说的先混淆数据的这种一般不是 302，可能是 js 跳转，你可以发给我网址，不一样的地方不一样分析，我周末可以讲讲。

golmic

2017-11-10 15:56:30 +08:00

@sacuba #42 看上一层楼，忘记点回复了。

sacuba

2017-11-10 16:04:44 +08:00

@golmic #44 确切说是 202 网址发你吧，能提供个思路就很感激了，很久之前的项目了，aHR0cDovL3d3dy5tc2EuZ292LmNuL3BhZ2Uvb3BlbkluZm8vYXJ0aWNsZUxpc3QuZG8/cGFnZVNpemU9MjAmcGFnZU5vPTEmY2hhbm5lbElkPTk0REYxNENFLTExMTAtNDE1RC1BNDRFLTY3NTkzRTc2NjE5Rg==

windflyme5

2017-11-10 16:18:00 +08:00

https://github.com/hawkli-1994/Beijing-Meteorological-Information

alen

2017-11-10 16:20:25 +08:00

这页面写的一点也不走心......

golmic

2017-11-10 17:15:23 +08:00

@sacuba #45 我这边打开一直 403...

YICHUJIFA

2017-11-10 18:24:11 +08:00

想问下，可以爬各个信用卡的活动吗？

golmic

2017-11-10 18:44:06 +08:00

@YICHUJIFA 爬虫这东西呢，你首先人能获取到，人也看不到的数据那爬虫也没办法，要不然就是黑客了。所以如果你人能获取到的话那爬还是没问题的

IamRobot

2017-11-10 18:55:39 +08:00

比较好奇爬虫技术

求问有没有技术 QQ 群或者微信群呢？

golmic

2017-11-10 19:26:13 +08:00

@IamRobot 有微信群，要加我微信才能拉你进去，扫码人满了

hallomou

2017-11-10 21:02:35 +08:00

想请问一下楼主看看能否爬取 Phyllis2 （ https://www.ecn.nl/phyllis2/Browse/Standard/ECN-Phyllis#）的数据呢？
这个数据库包含了各种燃料的属性数据，我想用这个数据来分析燃料的热值，谢谢。

golmic

2017-11-10 21:03:38 +08:00

@hallomou 你加我微信详细说一下需求好吧？我看了下应该不难

tuzhis

2017-11-11 07:39:55 +08:00

// TODO 爬取京东评论和图片再带点分析?
一直没时间实现😂

golmic

2017-11-11 12:29:10 +08:00

@tuzhis 可以做，我最近就想做电商的抓取

inmyfree

2017-11-11 12:58:56 +08:00

问下楼主 1024 的数据怎么爬。。。。[:dogge]

shendaowu

2017-11-11 20:09:04 +08:00

爬取知乎的收藏夹是否很难？我好像没见过知乎有收藏夹列表之类的东西，都是回答和收藏夹旁边推荐一些收藏夹。不加微信不给爬吗？加 QQ 行不行？还有能不能将结果可视化一下？或者尽量保持话题之间的结构，重复的表示一下。还有 wiki 的分类能不能可视化一下？我刚才好像找到能直接下载分类信息的地方了。这个： https://dumps.wikimedia.org/enwiki/20171020/enwiki-20171020-category.sql.gz

mingyun

2017-11-11 23:47:03 +08:00

@golmic 网站打不开呢 js 都加载不了，北京联通

smileghost

2017-11-12 01:32:02 +08:00

楼主加油，今晚的分享超极棒!

第 3 页／共 4 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/404987

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.