如何成为一名爬虫工程师？（顺带招人）

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 外包信息请发到 /go/outsourcing 节点。

• 不要把相同的信息发到不同的节点

这是一个创建于 2932 天前的主题，其中的信息可能已经有所发展或是发生改变。

Hi，本人目前的工作就是 V 友介绍的，入职之后非常喜欢现在这家公司。

帮 HR 发一下招聘信息，在下文（贴到 V2EX 需要改格式我就直接放链接了）《如何成为一名爬虫工程师》中的最后有 jd。通过这篇博文你也能对我们公司有个大体了解（博文是入门篇，我比较菜，这篇文章只能代表一个应届生的水平不代表公司水平）

https://www.kawabangga.com/posts/2277

有什么问题可以在这里或博客评论问我，我知道的话尽量回答。

第 1 条附言 · 2017-10-19 13:52:52 +08:00

地点上海

第 2 条附言 · 2017-10-19 18:58:03 +08:00

公司简介：玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。

互联网时代信息无处不在，我们日常所接触的大量信息例如微博、社交媒体网站的帖子、消费者点评、新闻、销售人员的拜访记录以及可以转换成文本的语音内容，这些都是常见的非结构化数据来源。
根据 2011 年 IDC 的调查，非结构化数据将占未来十年所创造数据的 90%。作为一个尚未得到充分开发的信息源，非结构化数据分析可以揭示之前很难或无法确定的重要相互关系。
非结构化数据分析能够揭示潜藏在文本当中的趋势和关联，为商业决策、研究行业趋势和热点内容分析提供有力支持。
玻森团队致力于打造最出色的中文语义分析技术，通过自主研发的中文分词、句法分析、语义联想和实体识别技术，结合海量行业语料的不断积累，为企业和广大开发者提供简单、强大、可靠的中文语义分析云端 API。

后端工程师招聘人数：2 薪资面议

岗位职责
1. 分布式网页抓取平台的研发、完善和运维，每天支持数千万级的网页采集、清洗和分析；
2. 产品后端 API 的开发，实现高性能、高可用及可扩展的后端代码；
3. 线上分布式环境的自动化运维、监控、性能调优。
职位要求
1. 扎实的算法与数据结构功底，对新的知识和技术有强烈热情；
2. 具有较强的分析和解决问题的能力；
3. 拥有良好的编程习惯；
4. 熟悉至少一门高级编程语言（例如 Python/C++/JAVA ）并有实际开发的经验。

第 3 条附言 · 2018-01-23 16:37:32 +08:00

此招聘依然有效。

博文

工程师

V2EX

入职

48 条回复 • 2017-10-20 17:16:56 +08:00

Betsy

2017-10-18 19:48:18 +08:00 via Android

楼主的文章写的很棒，其实我有个很小白的问题。就是关于使用“ JavaScript 脚本动态获取网站数据”这一块有点疑惑。我在爬取新榜这个网站指定公众号的热门文章的时候，发现其值是通过 post 方式获取的。它同时上传了 4 个值，前两个值是不变的，后两个值貌似是随机生成的。看了你的文章之后，我觉得那俩随机数应该是通过 JavaScript 生成的，然后我想问的是，如何找到它用的是哪个 JavaScript 脚本？这样我想我就应该能获取到随机数生成规则了吧！？

scriptB0y

2017-10-18 20:19:29 +08:00

@Betsy 可以设置断点跟踪进去

https://developers.google.com/web/tools/chrome-devtools/javascript/?hl=zh-cn

不过一般即使是客户端生成的也很难破解，实在不行可以开浏览器抓

evanshh

2017-10-18 22:13:53 +08:00

非计算机专业毕业的，在向爬虫方向学习但是觉得自己编程基础比较薄弱，是不是对应聘影响很大呢？比如贵公司的招聘，专业是不是死门槛？

scriptB0y

2017-10-18 22:26:13 +08:00

@evanshh 专业问题不是很大，不用心虚。我们 NLP 有个大神好像是化学专业的。

计算机专业课上讲的东西很烂的，基本上还是和高中讲的应试教育那一套。不仅讲的烂还打击人的学习兴趣，自己看书有趣多了。对我来说大学自学学到的东西大约占 90%

Betsy

2017-10-18 22:28:16 +08:00 via Android

@scriptB0y 感觉似乎找到了 js 中生成随机数的方法，但因为不懂 JavaScript 语法，有点懵逼。话说开浏览器怎么抓？那两个值每刷新一次网页就会变一次，感觉不能复制出来再使用啊！

sangmong

2017-10-18 22:43:10 +08:00

get 和 post 真的没啥区别么...

forestyuan

2017-10-19 08:51:38 +08:00

很好奇爬虫工程师的待遇如何

scriptB0y

2017-10-19 09:02:30 +08:00 via iPhone

@sangmong 除了语义，没有

scriptB0y

2017-10-19 09:04:16 +08:00 via iPhone

@forestyuan 可以来聊聊，我认为待遇不错。不然我就不会入职不久就来拉人了。

领导 nice，五险一金，免费零食，节日福利。

scriptB0y

2017-10-19 09:05:36 +08:00 via iPhone

@Betsy 额，开浏览器是爬虫的无界面浏览器那种，那样爬虫会使用浏览器执行 js 代码。和真实用户看到的网页一样。

yeless

2017-10-19 09:47:29 +08:00

Python + Selenium + PhantomJS

WoodenRobot

2017-10-19 10:41:56 +08:00

使用无界面浏览器做爬虫推荐一下 Splinter。已经集成 Firefox 和 Chrome 的 Headless 模式。

JackZong

2017-10-19 10:43:10 +08:00

天猫商品销量可否有办法爬到？

Betsy

2017-10-19 11:26:03 +08:00 via Android

@scriptB0y 是指 Selenium + PhantomJS 这种组合吗？这种的话，我已经实现了，效率堪忧啊...

scriptB0y

2017-10-19 11:27:41 +08:00

@Betsy 效率确实是问题。不过按照你的描述，没办法破解就只好这样了。

Betsy

2017-10-19 11:51:13 +08:00 via Android

@scriptB0y 感觉 js 文件本身没有混淆，我再去研究研究下 js 文件中关于生成随机数这部分代码。谢谢你啦，祝你尽快招到合适的人选。

YuuuZeee

2017-10-19 12:01:12 +08:00

用过你们公司的 API，感觉挺棒的，比 BAT 的不相上下

sangmong

2017-10-19 12:17:35 +08:00

@scriptB0y 随便百度一下都有很多区别吧...https://www.zhihu.com/question/28586791

scriptB0y

2017-10-19 12:24:09 +08:00

@sangmong 可能因为你用的是百度？

不如举例说说百度到哪些区别……

sangmong

2017-10-19 12:43:11 +08:00

@scriptB0y 知乎的域名不认识?

scriptB0y

2017-10-19 12:45:58 +08:00 via iPhone

@sangmong 认识啊我打开一看这个答案不是符合我的说法的吗，所以才问你百度到了哪些不同

scriptB0y

2017-10-19 12:46:46 +08:00 via iPhone

@YuuuZeee 谢谢好像 V2EX 的标签也是玻森数据的

sangmong

2017-10-19 12:52:51 +08:00

@scriptB0y 所以你家服务器上的数据 get 就能修改吧

p2pCoder

2017-10-19 12:58:31 +08:00

@Betsy 一般来说，除了支付宝，淘宝，京东这些大型公司的登陆参数加密太复杂的，其他的都能弄，首先需要一定 js 基础，能在浏览器进行断点跟踪，找到相应的 fuction 就行了，然后换语言重写，或者用 python 的 js 相关库执行就行。

p2pCoder

2017-10-19 13:09:28 +08:00

@scriptB0y 说实话，商业公司域名不是 https，真的很影响第一映像

scriptB0y

2017-10-19 13:12:14 +08:00

@sangmong 参考 #8 楼，这属于语义。

scriptB0y

2017-10-19 13:14:14 +08:00

@p2pCoder

我们的域名应该都是 https 的啊，内部的 sentry 都是 https 的。

https://bosonnlp.com/
https://www.riskstorm.com

wisej

2017-10-19 13:26:22 +08:00 via Android

应届毕业生收么

Betsy

2017-10-19 13:35:40 +08:00 via Android

@p2pCoder 目前个人的确不会 JavaScript，看来得去恶补下这部分才行。谢啦。

p2pCoder

2017-10-19 13:36:58 +08:00

@scriptB0y 可能配置有问题，我第一次从百度进去不是 https

scriptB0y

2017-10-19 13:47:14 +08:00

@wisej 收（我就是）

scriptB0y

2017-10-19 13:48:23 +08:00

@p2pCoder 嗯没有开 301 跳转。不过百度好坑，google 都是有先进 https 结果的

weakish

2017-10-19 13:49:09 +08:00

现在推广都一推二了啊~ location, salary 这 JD ...

torment5524

2017-10-19 14:04:51 +08:00

话说现在 30 多了，08 年在软件公司工作，12 年进了个国企，干了 5 年干不下去了。平时都是给朋友做些简单软件，前阵子刚用 java 给朋友做过一个 jd 的自动登陆下单，进公司还有希望么。。现在想跳出来，不知道该去哪

scriptB0y

2017-10-19 18:57:29 +08:00

@torment5524 可以来我们公司聊聊

evanshh

2017-10-19 19:09:56 +08:00

@scriptB0y 稳！

palx

2017-10-19 19:39:50 +08:00

感谢分享，看这篇博文突然对爬虫工程师很感兴趣

7gong

2017-10-19 22:10:01 +08:00 via iPhone

@scriptB0y 有付费订制需求，但贵公司不接受...捉急

leeyiw

2017-10-20 00:46:56 +08:00

帖子这么火，搭车招聘爬虫防护工程师，C/C++，有意私聊，base 杭州

gouchaoer

2017-10-20 01:01:49 +08:00 via Android

@leeyiw 你们业务用 c 艹写的？自己造轮子会死的很惨的

scriptB0y

2017-10-20 09:38:06 +08:00

@7gong 额这个我也帮不上忙，可以联系我们销售……

macg0406

2017-10-20 10:39:13 +08:00

做某块类似于爬虫工作时遇到自定义字形、自定义编码的问题，发现网页上面也可以，@font-face + WOFF，不遵循现有编码，也会给爬虫带来不小的麻烦。不过现在还没见到有人这样用。

scriptB0y

2017-10-20 11:10:21 +08:00

@macg0406 是个思路。不过防爬虫就得考虑 SEO 误伤的问题。这个思路估计对 SEO 误伤的概率很大吧。

macg0406

2017-10-20 12:35:21 +08:00

@scriptB0y 可以像指定字体一样指定内容是否用自定义编码，如果希望被搜索到，就用正常编码，不希望被爬的，就用自定义编码。

79lawyer

2017-10-20 15:19:55 +08:00 via iPhone

招实习生吗大佬

scriptB0y

2017-10-20 15:33:20 +08:00

@xuqiccr 招，发简历吧。

blackMountain

2017-10-20 17:11:00 +08:00

招前端吗大佬

scriptB0y

2017-10-20 17:16:56 +08:00

@blackMountain 暂时不招前端 :doge:

如何成为一名爬虫工程师？ （顺带招人）

如何成为一名爬虫工程师？（顺带招人）