Hades300 最近的时间轴更新
Hades300

Hades300

V2EX 第 442255 号会员,加入于 2019-09-20 13:34:53 +08:00
Hades300 最近回复了
自然是写代码 想干的都可以干啊 就是娱乐缺点生态
2020-11-04 12:27:54 +08:00
回复了 guluguluFM 创建的主题 分享创造 我开了一档关于创作者的播客,名字叫《闭门造车》
赞赞赞赞 一直想听到这类非典型创作者的采访,一定要长久做下去 :)
微信求拉 YnlfMTAxODk4NzQ4OAo=
2020-10-26 12:57:27 +08:00
回复了 jiangpanzyy 创建的主题 酷工作 招 Python 远程兼职五人
无聊打工,大三,有相关实习经历,当时进的数据组但也帮着写 vue 前端。主要就在一个魔改 scrapy 里面写爬虫,数据库都会,框架比较杂集成了蛮多接口。好奇会爬啥站,只用 requests 就行了?性能考虑呢,感觉五人做不出啥...
2020-09-03 13:18:48 +08:00
回复了 Messiahhh 创建的主题 程序员 我来拯救 2021 秋招还没上岸的前端同学了
知识梳理写的挺好的,赞。
好奇问问,校招、内推的大厂,对于只有省校级比赛奖项、一两段项目经历的双非一本,过初筛的可能大么...
2020-09-03 09:28:10 +08:00
回复了 MrhuangSTR 创建的主题 Python 有什么好的办法可以监控"网页结构"变化
其实爬虫写得好,只要捕获特定类型的 Exception 。中间件里写 Hook 就好。
2020-09-03 09:25:37 +08:00
回复了 MrhuangSTR 创建的主题 Python 有什么好的办法可以监控"网页结构"变化
页面的变动是只有拿到 response 才能知道呀。其实宽泛一点,但凡页面发生变化都可以被认为是“结构改变”。
我的话,会在每次爬取时生成对 response.text 的哈希吧,然后存到 Redis (当然其他也行),key 要能映射到单次请求,考虑到 Post 不会改变 url 。。key 的生成我大概会选个 md5(method+url+data)。
有了这样的键值对后,把这部分比较写到中间件里,equal or unset ->set hash and save item,failed -> updated & drop item & Call Hook 邮件或者钉钉 或者自建监控表入个库。

这种方法只适用于静态页面
2020-08-28 17:44:54 +08:00
回复了 tikazyq 创建的主题 程序员 强大高效而精简易用的 Golang 爬虫框架 Colly,能否取代 Scrapy?
写得挺好的 加油
2020-08-28 17:39:15 +08:00
回复了 bjzhush 创建的主题 程序员 这一次,我们为程序员和计算机系大学生编了一本英语词典
这种工作量... 好奇问问团队多少人?
2020-07-15 08:48:38 +08:00
回复了 plusDiscuss 创建的主题 奇思妙想 独立开发者交流群(扶持互助,吹水勿入)
求拉 YnlfMTAxODk4NzQ4OA==
关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1746 人在线   最高记录 5497   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 16:51 · PVG 00:51 · LAX 08:51 · JFK 11:51
♥ Do have faith in what you're doing.