我这种需求应该去学什么

20 天前
 sg8011
最近碰到一个需求,业务部门想要统计业务系统里的某个业务参数,但是业务系统里面并没有提供这项参数的统计功能,也没办法导出 excel 表来自己统计,只能在点开每个详情一一里面查看。但是这个业务每个月至少有 4000 多件,一件一件点进去的话算,非常费时费力,应该学点什么技术,可以实现提取并汇总每个项目详细信息里的这项数据,然后进行统计呢?
4510 次点击
所在节点    程序员
44 条回复
unco020511
20 天前
花 1000 块,在 v 站找个小伙伴帮你把所有搞好
RandomJoke
20 天前
@sg8011 哪那么复杂,python +一点 JS HTML 知识就够了,你又不是要写什么爬虫大项目
Configuration
20 天前
搞笑,你们项目上线后就一成不变了吗? 不需要根据实际业务变化不断迭代吗?还是说跟软件开发商已经闹掰了?
Habyss
20 天前
你会什么就用什么, 都不会的话选一个感兴趣的, 而且你这点儿东西用不到框架

总体思路就是, F12 查看请求, 然后使用代码循环复现请求, 得到响应数据, 拿到响应里自己需要的数据, 处理

至于你要的信息是不是在列表数据中就已经返回了, 是不是真的需要调用详情接口才能获取, 需要自己去看了
tomatocici2333
20 天前
自学 python 爬虫
gogogo1203
20 天前
<amp-youtube data-videoid="ooWaPVvljlU" layout="responsive" width="480" height="270"></amp-youtube> 丢给 AI.
dejavuwind
20 天前
@unco020511 打个 8 折 交个朋友
yb2313
20 天前
上爬虫, 给系统上上压力
Sawyerhou
20 天前
系统能用 chrome 打开吗?能的话用 automa 插件试试。
saranz
20 天前
还是直接和领导申请数据库吧,写虫子,对业务系统太浪费了。
NoOneNoBody
20 天前
给你个最简单的方案:
1. 先让 chatgpt 写个 python flask ,接收油猴提交过来的数据,就几行 python 而已
如果后续计算简单,可以让 flask import 计算模块直接计算,储存结果,然后返回给油猴
如果计算复杂耗时,几分钟完成不了,就直接存接收的数据,离线另外计算
2.油猴,让 chatgpt 写,你需要做的就是用浏览器找到数据所在元素,开发者工具 copy css selector 并告诉 gpt 提取这个
如果需要自动翻页,也是知道多个页面的地址,让 gpt 写自动跳到下一页
脚本获取后提交给前面说的 flask ,看情况是否需要获取返回,离线计算的话,alert 知道存了就行了

把整个需求组织一下,跟 chatgpt 说清楚,自己改改基本就可以了,全部本地操作,不用学太多东西
NoOneNoBody
20 天前
ps: flask 用 debug 模式,这样改动 python ,ctrl-s ,flask 就能自适应刷新,反正个人需求,也不会出现大规模请求,就起一个 flask 够用了
liuyx7894
20 天前
呃...大概率爬虫框架都不用,你把列表页接口和详情页接口找到,然后把你的 token 搞下来用任意语言循环请求一下就搞定了....
内部系统也没啥反扒...
Nosub
19 天前
提供两个思路,做过类似的功能,
第一个:纯 api 接口层面,看看是否可以直接调用接口,如果不能,看看 api 是否可以重放,如果可以重放,就表示可以提取 cookie 或是 token 写脚本。

第二个:如果数据依然来自 api 接口,如果接口很难破解或是以你的能力破解不了,那就不破解,抓包就可以了,写一个模拟点击的功能,然后写一个抓包插件,基于 fiddler 写个抓包插件或是脚本并不难,可以学习下 c#。

第三个:如果数据是服务端渲染,也就是数据在 HTML 里面,那更加简单,写个爬虫,解析 HTML 就可以。


第四,如果以上方法都不行,用按键精灵写一个脚本,模拟人为点击,复制数据,粘贴数据。
stillsilly
19 天前
3 个 js 函数就行了
列表数据 = 发请求拿列表页数据()
列表数据.循环每条(一条数据 => {
详情数据 = 发请求拿详情数据(一条数据.id)
// 拿到详情数据了,存到数组里,列表循环完之后导出成 excel 文件。也是一个简单的小函数就可以了。
// 不会写的话可以问 chatGPT ,就这么问它:帮我用 js 写一个函数,传入数组,把数组转成 excel 下载下来。
})
stillsilly
19 天前
缩进没了 好难看
adoal
19 天前
设计系统的架构受制于产生这些设计的组织的沟通结构。

——马文·康威,1967
imicksoft
19 天前
是浏览器打开的 web 管理系统?
那用 aardio ,web.view2 组件,循环浏览提取网页上的信息,保存一下,再整理
wocao666
19 天前
两种方法:打开抓包软件抓取请求,根据请求写自动化请求脚本获取并汇总数据;用 selenium 、puppeteer 、playwright 这种无头浏览器抓取解析网页并实时汇总
Ackvincent
19 天前
selenium 一把嗦

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1069010

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX