求助, 提取 html 内容相关

2020-02-22 12:12:51 +08:00
 lzlee

抱歉, 实在不清楚要发到哪个节点

有这么一个需求

  1. 我通过 chrome 开发者工具, 截取了某个 网页 的元素
  2. 我想通过 某种手段, 截取到 元素 的 子元素
  3. 我想通过 某种手段, 截取到 元素 的 属性 或者 内容
  4. 我会一点 java, python 和 shell, 这些我都可以去尝试, 当然其他的也行
  5. 输入是一段 html, 以及我的条件, 比如定制路径, 是否带外标签, 输出是 文字

疑问

  1. 感觉像是 html 页面里, 提取特定 元素, 属性, 内容
  2. 中间可能会有 html 元素路径的指定, 和其他一些过滤
  3. 感觉这种事, 之前肯定有人做过, 我是第一次接触, 但是感觉没啥门路

感谢各位大佬

1931 次点击
所在节点    问与答
18 条回复
learningman
2020-02-22 12:23:22 +08:00
xpath,了解一下
或者 css 选择器
Procumbens
2020-02-22 12:41:20 +08:00
BeautifulSoup?
xiri
2020-02-22 13:11:16 +08:00
用 python 做,lxml、BeautifulSoup 等都能实现你的要求(其实你的需求就是爬虫的数据清洗部分要干的事)
7huixiang
2020-02-22 13:17:37 +08:00
听着像文章采集器呢
siknet
2020-02-22 13:21:41 +08:00
火车采集器,最高效易学的了
omph
2020-02-22 13:43:05 +08:00
简单的可以用 shell
https://github.com/coderobe/hq
oneisall8955
2020-02-22 14:22:09 +08:00
JAVA 中建议用 jsoup,和 jquery 一把梭一样,很简单。并且,xpath 有时候因为页面的元素不标准,导致解析不了,jsoup 没有这个问题
tlday
2020-02-22 15:10:04 +08:00
tlday
2020-02-22 15:10:33 +08:00
littleylv
2020-02-22 15:30:59 +08:00
解析 html 的轮子非常多,基本各大语言都有,你有这发帖时间都找到了。
1 楼的说的两个,搜索一下你就知道了
lis66951735
2020-02-22 16:15:21 +08:00
java jsoup , python BeautifulSoup
TangMonk
2020-02-22 16:19:12 +08:00
@littleylv #10 可惜 Pascal 的轮子比较少
yuenc
2020-02-22 20:01:29 +08:00
nodejs puppeteer
crella
2020-02-23 10:11:37 +08:00
……我都是自己切割字符串查找文本的,我接触的网页比较简单……
lzlee
2020-02-24 16:18:24 +08:00
感谢各位大佬的回复, 我挨个试试, 有效果的话, 会给反馈
lzlee
2020-02-24 16:24:18 +08:00
@siknet
感谢大佬
火车我之前当做开发的时候用过, 功能确实很强大,
当时记得是做一个 比价网站, 从各个购物网站上爬价格, 然后比较
刚刚看了看, 发现 火车采集器 是个收费软件, 而且我的需求只是满足自己的一些好奇心
大概是 在尝试理解一类用户的 思考方式 和 语言风格, 目前还只停留在很初级的阶段
等真的哪天需要了, 再买个火车吧
siknet
2020-02-24 20:33:03 +08:00
火车采集器有免费版的啊,一般用足够了,注册个账号而已
@lzlee
lzlee
2020-02-25 00:05:31 +08:00
@siknet 还真有...谢谢大佬

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/646576

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX