请问，随机一部中国现行法律或者地方法规，我要如何通过程序对其进行有效的拆分？因为法律条文的格式有规范，尝试过正则表达式，但是确实还是会有错误的情况出现，并不是最好的方式。有没有更好的解决方案，请具体说一说

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1834 天前的主题，其中的信息可能已经有所发展或是发生改变。

法律

条文

拆分

请问

17 条回复 • 2021-03-31 10:30:56 +08:00

jr55475f112iz2tu

2021 年 3 月 26 日

这种应该要标注+ BERT 再搞搞吧？

cherryas

2021 年 3 月 26 日

原书扫描

ch2

2021 年 3 月 26 日

正则表达式只是做词法分析用的，你的需求很显然是必须进行语法分析才能实现的，用 yacc 自己搞一套就是了
只要格式是规范的，语法分析器就能把文本搞成结构化的数据，边界错误可以通过改文法产生式来兼容，很简单的

favourstreet

2021 年 3 月 26 日 via Android

楼主您这一提地方法规，这难度就上来了

TimePPT

PRO

2021 年 3 月 26 日 via Android

有些电子书排版软件自带的章节切分很好用，最好是带自定义规则的。我就用这个干过切条目的事

alexkkaa

2021 年 3 月 26 日 via Android

拆分？怎么拆分

rekulas

2021 年 3 月 26 日

参考国外成熟产品的方案，都是用语法分析或者 AI 学习，可能只有新手才会想到正则。。。

Meltdown

2021 年 3 月 27 日 via Android

以前想着用自然语言处理来找法律漏洞

hejw19970413

2021 年 3 月 27 日

人工录入,在怎么好的词性分析也不可能读懂人立的规矩

ljpCN

2021 年 3 月 27 日 via iPhone

es 建索引？

siyemiaokube

2021 年 3 月 27 日 via iPhone

先说清楚你的拆分是怎么个拆分……

alphatoad

2021 年 3 月 28 日

自然语言不能用 context-free grammar

5shengxin

2021 年 3 月 29 日

@siyemiaokube @alexkkaa 就是根据这一部法律的条文的行文规范，比如你输入整部的刑法最终应该拆解出几编，几章，几节，并且这些条文间应该要有层级关系，但不仅限于这个规范，因为很多地方法规他是没有编章节条这些章节切分的，他可能是阿拉伯数字的编号，也可能是中文的数字编号，最好是好可以提炼出关键字，以用于做后续的关联！
@ch2 因为只懂 python 和 java，并且都是小菜鸡，有这方面的成熟方案吗？
@rekulas 成熟方案是哪些，可以具体说说嘛？
@favourstreet 是啊，地方法规的规范确实不确定，但大体上还是有迹可循，一般都会标明 123，现在是只处理那些有编号的条文？
@alphatoad 然后呢？
@hejw19970413 就是想解决人工录入的问题，想要复制粘贴整个文档，然后拆成具有层级的条文
@Meltdown 这个我也想过
其实不仅仅是法律，只要是正式的文书基本上都有固定的格式

ch2

2021 年 3 月 29 日 via iPhone

@5shengxin Python 的 yacc 很好用的，这玩意本来是做编程语言用的。用来分析带格式的文本就是杀鸡用牛刀根本不在话下，不需要写几条规则就能全部解析出来了

rekulas

2021 年 3 月 29 日

@5shengxin ROSS Intelligence 搜搜这个的资料了解下看，具体案例我不是行业人士也不是很清楚，只记得几年前就有国外团队涉足这个领域了而且拿到了不少投资

5shengxin

2021 年 3 月 29 日 via Android

@rekulas ok 谢谢

hejw19970413

2021 年 3 月 31 日

立法其实就是让人不出边界，边界问题是有迹可循的，但是边界内的问题其实就是辩论会