V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  p2pCoder  ›  全部回复第 52 页 / 共 57 页
回复总数  1123
1 ... 44  45  46  47  48  49  50  51  52  53 ... 57  
2017-11-21 18:14:21 +08:00
回复了 p2pCoder 创建的主题 程序员 要设计一个真正的被遗忘的社交网站或者论坛,有哪些难度
@hhhtang db 中 关于这个 用户的 所有记录都 删除
2017-11-21 18:03:29 +08:00
回复了 ajdpsx000 创建的主题 问与答 有人玩过这些运动 法式滚球 petanque 吗
国内 老年人 玩这个的占的比例大
2017-11-21 17:46:33 +08:00
回复了 p2pCoder 创建的主题 全球工单系统 写电信网站爬虫 遇到个奇葩事
@T110E5 http://bj.189.cn/iframe/feequery/smsRandCodeSend.action
二次验证还是很重要的,毕竟 详单 数据 是 用户真正的核心数据
短信验证码 接口这么写,也是第一次 看短信验证码接口 返回了 短信验证码的
2017-11-21 16:14:31 +08:00
回复了 fyooo 创建的主题 Python 有人试过并发爬虫时把返回结果的处理放到消息队列中么?
@dawncold 请教一下,这个 socket 要监听 什么参数,能拿到特定的包返回
还有就是 这个过程会有 包丢失吗?
2017-11-21 15:57:49 +08:00
回复了 qwertty01 创建的主题 问与答 Selenium 爬虫被检测到怎么办?使用的是 ChromeDriver
@qwertty01 可设置 的参数太多,我也不清楚,你最好看一下 访问的 url 链,首先确定是哪个 url,哪个页面,然后再确定哪个参数出问题
2017-11-21 15:47:49 +08:00
回复了 fyooo 创建的主题 Python 有人试过并发爬虫时把返回结果的处理放到消息队列中么?
我想了解 如何 拿到特定的返回包
2017-11-21 15:38:30 +08:00
回复了 qwertty01 创建的主题 问与答 Selenium 爬虫被检测到怎么办?使用的是 ChromeDriver
反爬 这东西 很复杂的,selenium 触发反爬,可能是 请求速度太快
2017-11-21 14:03:18 +08:00
回复了 y051313 创建的主题 分享发现 迅雷的玩客币现在可以在哪里变现啊?
cex 可以换成 usdt,然后网站提供 usdt 兑换
2017-11-21 10:14:23 +08:00
回复了 esolve 创建的主题 问与答 关于写锁的理解
建议 了解 一下 事务的隔离级别与锁的关系,还有我觉得 关于 事务,首先还是 搞清楚 db,再说程序中的
2017-11-18 23:30:29 +08:00
回复了 ZhaoBryant 创建的主题 职场话题 [Offer 求助] 成都美团开发 vs. 成都京东测开
@rabbitwhite 应该是 校招的价
2017-11-18 22:00:39 +08:00
回复了 esolve 创建的主题 职场话题 人工智能这个泡沫应该会在 2019 年破灭
我觉得 这波互联网 企业的股票 会在 好久崩盘,会不会崩盘,影响更大
2017-11-18 12:31:25 +08:00
回复了 wuyuchenshishabi 创建的主题 职场话题 爬虫还得招专门的工程师?
@takanasi 开发之前首先找法务部门,现在这些 p2p 与现金贷公司都面对的是 次级用户,这些人 也不如 v 站上的程序员这么警觉
说到底,这些老板 还是想做自己的风控,做自己的数据
2017-11-18 12:23:25 +08:00
回复了 wuyuchenshishabi 创建的主题 职场话题 爬虫还得招专门的工程师?
@ljcarsenal 登录就用 selenium,而且因为 ip 的问题,还需要再次验证短信验证码
只要拿到 cookie,后面的参数和 http 请求头不触发 内部的一些安全机制,比如 csrf css,还有一些 token 找准确了,都能行
京东和淘宝我们都这样做了,不过相当麻烦

反正就是要关注 http 请求 的每一个参数,以及 http 请求头的参数,做的时候


当然现在还有一种方法,不模拟登陆,直接在自家 app 内嵌 浏览器,让用户登陆,然后 拿 cookie
2017-11-18 12:07:21 +08:00
回复了 wuyuchenshishabi 创建的主题 职场话题 爬虫还得招专门的工程师?
要看你要收集的数据的多少和爬取的网站的难度了

就像我 现在 再为一家大型 p2p 公司开发 征信相关的爬虫

核心就是登陆 然后 通过相关的安全验证,我们做了 京东 淘宝 电信 联通 移动 学信 征信 这些个人用户信息的爬取,都是需要 登陆,其中 暗坑也很多,最复杂的就是 猜 session 校验,cookie 还比较好搞,session 中的校验我在客户端就只能猜,请求 ,然后试错。前端的 js html 也必须懂,起码要能做 js 断点调试,特别是 对于 加密算法,不能一遇到加密就是 selenium,否则性能跟不上

然后就是爬虫本身要提供服务,就像 聚信立 等 数据提供商做的,其中 的 长连接 容错,如何保存,微服务也要考虑

这两个月 面试了二十来个人,满意的就一两个,很多 都满足不了我们的需求,特别是 基础不好,http 的理解就是个基础,对于 web 后端也没有了解,前端也不熟,基本也就入个门
2017-11-17 21:51:56 +08:00
回复了 jahan 创建的主题 Python 请教怎么把 tradingview 上的图表用 Python 爬下来?
@jahan 这个没法 直接桶接口,这个 是 返回的 js 文件,形成的 svg
如果要数据,就是 把 两个 js 文件 ,看里面 那些数据需要
如果 截图
直接用 selenium 就行
2017-11-17 21:45:59 +08:00
回复了 jahan 创建的主题 Python 请教怎么把 tradingview 上的图表用 Python 爬下来?
这个很蛋疼,因为一般来说 时间序列作图,返回的事 json,但是这个是用 svg 的方式画的,你主要要分析下
https://www.tradingview.com/static/bundles/main_chart.{可能是随机数}.js

https://www.tradingview.com/static/bundles/widgetbar.{可能是随机数}.js
这两个里面应该有图表的数据

对于爬去这样 你一眼 看不出是哪个 http 请求的数据 你可以 找到 图像中的 点 数据,然后 使用
chrome 的 search all files 找到 可能对应的 源文件
2017-11-17 15:31:15 +08:00
回复了 yearliny 创建的主题 Python Django 如何分多次提交一个表单?
ajax
1 ... 44  45  46  47  48  49  50  51  52  53 ... 57  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5570 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 35ms · UTC 08:48 · PVG 16:48 · LAX 00:48 · JFK 03:48
Developed with CodeLauncher
♥ Do have faith in what you're doing.