最近需要用 python 写一个 DSL 解析器, DSL 就是一个字典格式,用过 goldendict 的人可能知道,格式与 HTML 很像,解析的方法应该与 HTML 解析器差不多,所以想知道现在比较流行的 HTML 解析器(如 python 的 beautifulsoup 和 java 的 jsoup )是如何实现这一功能的。查资料只查到了 ply 这个库,是一种 lr parser ,不知道这种方案能不能满足需求,因为我并没有找到用 ply 解析 HTML 的相关例子。
也许看 beautifulsoup 或者 goldendict 的源码可以解决问题,不过在不明白原理的情况下确实很难看懂源码,在网上搜索出来的信息大部分也都是利用相应的库解决,并没有找到自己想要的资料,所以希望能给个关键字或者教程之类的,学习一下,谢谢。
附上一份 dsl 样本: https://github.com/Tvangeste/SampleDSL/blob/master/sample.dsl
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.