一个文本解析的问题请教

2023-09-25 13:53:45 +08:00
 guoguobaba

有一个文章模板,基本就是目录,内容,树状格式,章节之间的关系用 json 定义

章节 1
    内容
    章节 1.1
        内容
        章节 1.1.1
           。。。
    章节 1.2
        内容
章节 2
    。。。

基于这个模板的文章,某些章节和内容都可能缺失

想把这个文章按照章节模板转化成这样的 json

章节 1                      内容
章节 1/章节 1.1              内容
章节 1/章节 1.1/章节 1.1.1    内容
章节 1/章节 1.2              内容

怎么设置匹配方案

注意到,章节和内容在形式上没有区别,章节是字符串表示,而内容可能是字符串也可能 是字符串数组。

962 次点击
所在节点    Python
3 条回复
coderluan
2023-09-25 14:02:42 +08:00
得先找到一个办法去区分章节和内容吧,然后遍历内容,向前获取章节就行了。


如果没办法区分章节和内容,而章节和内容又都可能缺失,你这个就相当于,内容内容内容,没办法知道是内容/内容内容,还是内容内容/内容。
opengps
2023-09-25 14:04:13 +08:00
如果可以确认所有末节点的内容是单行的,那么 tab 就是你的识别符了
NoOneNoBody
2023-09-26 14:14:13 +08:00
json -> nested dict -> xpath ,后面这步网上有,搜一下能找到,基本上就是 key 递归

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/976940

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX