|  |      1Betsy      2017-10-18 19:48:18 +08:00 via Android 楼主的文章写的很棒,其实我有个很小白的问题。就是关于使用“ JavaScript 脚本动态获取网站数据”这一块有点疑惑。我在爬取 新榜 这个网站指定公众号的热门文章的时候,发现其值是通过 post 方式获取的。它同时上传了 4 个值,前两个值是不变的,后两个值貌似是随机生成的。看了你的文章之后,我觉得那俩随机数应该是通过 JavaScript 生成的,然后我想问的是,如何找到它用的是哪个 JavaScript 脚本?这样我想我就应该能获取到随机数生成规则了吧!? | 
|  |      2scriptB0y OP @Betsy 可以设置断点跟踪进去 https://developers.google.com/web/tools/chrome-devtools/javascript/?hl=zh-cn 不过一般即使是客户端生成的也很难破解,实在不行可以开浏览器抓 | 
|      3evanshh      2017-10-18 22:13:53 +08:00 非计算机专业毕业的,在向爬虫方向学习但是觉得自己编程基础比较薄弱,是不是对应聘影响很大呢?比如贵公司的招聘,专业是不是死门槛? | 
|  |      4scriptB0y OP @evanshh 专业问题不是很大,不用心虚。我们 NLP 有个大神好像是化学专业的。 计算机专业课上讲的东西很烂的,基本上还是和高中讲的应试教育那一套。不仅讲的烂还打击人的学习兴趣,自己看书有趣多了。对我来说大学自学学到的东西大约占 90% | 
|  |      5Betsy      2017-10-18 22:28:16 +08:00 via Android @scriptB0y 感觉似乎找到了 js 中生成随机数的方法,但因为不懂 JavaScript 语法,有点懵逼。话说开浏览器怎么抓?那两个值每刷新一次网页就会变一次,感觉不能复制出来再使用啊! | 
|  |      6sangmong      2017-10-18 22:43:10 +08:00 get 和 post 真的没啥区别么... | 
|  |      7forestyuan      2017-10-19 08:51:38 +08:00 很好奇爬虫工程师的待遇如何 | 
|  |      9scriptB0y OP | 
|  |      10scriptB0y OP @Betsy 额,开浏览器是爬虫的无界面浏览器那种,那样爬虫会使用浏览器执行 js 代码。和真实用户看到的网页一样。 | 
|  |      11yeless      2017-10-19 09:47:29 +08:00 Python + Selenium + PhantomJS | 
|  |      12WoodenRobot      2017-10-19 10:41:56 +08:00  1 使用无界面浏览器做爬虫推荐一下 Splinter。已经集成 Firefox 和 Chrome 的 Headless 模式。 | 
|  |      13JackZong      2017-10-19 10:43:10 +08:00 天猫商品销量可否有办法爬到? | 
|  |      14Betsy      2017-10-19 11:26:03 +08:00 via Android @scriptB0y 是指 Selenium + PhantomJS 这种组合吗?这种的话,我已经实现了,效率堪忧啊... | 
|  |      16Betsy      2017-10-19 11:51:13 +08:00 via Android @scriptB0y 感觉 js 文件本身没有混淆,我再去研究研究下 js 文件中关于生成随机数这部分代码。谢谢你啦,祝你尽快招到合适的人选。 | 
|  |      17YuuuZeee      2017-10-19 12:01:12 +08:00 用过你们公司的 API,感觉挺棒的,比 BAT 的不相上下 | 
|  |      18sangmong      2017-10-19 12:17:35 +08:00 @scriptB0y 随便百度一下都有很多区别吧...https://www.zhihu.com/question/28586791 | 
|  |      21scriptB0y OP @sangmong 认识啊 我打开一看这个答案不是符合我的说法的吗,所以才问你百度到了哪些不同 | 
|      24p2pCoder      2017-10-19 12:58:31 +08:00 @Betsy  一般来说,除了 支付宝,淘宝 ,京东这些大型公司的登陆参数加密太复杂的,其他的都能弄,首先需要一定 js 基础,能在浏览器进行 断点跟踪,找到相应的 fuction 就行了,然后换语言重写,或者用 python 的 js 相关库执行就行。 | 
|  |      27scriptB0y OP | 
|  |      28wisej      2017-10-19 13:26:22 +08:00 via Android 应届毕业生收么 | 
|  |      33weakish      2017-10-19 13:49:09 +08:00 现在推广都一推二了啊~ location, salary 这 JD ... | 
|  |      34torment5524      2017-10-19 14:04:51 +08:00 话说现在 30 多了,08 年在软件公司工作,12 年进了个国企,干了 5 年干不下去了。平时都是给朋友做些简单软件,前阵子刚用 java 给朋友做过一个 jd 的自动登陆下单,进公司还有希望么。。现在想跳出来,不知道该去哪 | 
|  |      35scriptB0y OP @torment5524 可以来我们公司聊聊 | 
|  |      37palx      2017-10-19 19:39:50 +08:00 感谢分享,看这篇博文突然对爬虫工程师很感兴趣 | 
|  |      39leeyiw      2017-10-20 00:46:56 +08:00 帖子这么火,搭车招聘爬虫防护工程师,C/C++,有意私聊,base 杭州 | 
|      42macg0406      2017-10-20 10:39:13 +08:00 做某块类似于爬虫工作时遇到自定义字形、自定义编码的问题,发现网页上面也可以,@font-face + WOFF,不遵循现有编码,也会给爬虫带来不小的麻烦。不过现在还没见到有人这样用。 | 
|      44macg0406      2017-10-20 12:35:21 +08:00 @scriptB0y 可以像指定字体一样指定内容是否用自定义编码,如果希望被搜索到,就用正常编码,不希望被爬的,就用自定义编码。 | 
|  |      4579lawyer      2017-10-20 15:19:55 +08:00 via iPhone 招实习生吗大佬 | 
|  |      47blackMountain      2017-10-20 17:11:00 +08:00 招前端吗大佬 | 
|  |      48scriptB0y OP @blackMountain 暂时不招前端 :doge: |