Markdown 转 HTML 的轮子很多, HTML 转 Markdown 的工具却不多.
用途: 爬虫爬文章保存到本地为 Markdown 格式
Github 地址: https://github.com/gaojiuli/tomd
Convert HTML to Markdown.
pip install tomd
输入
from tomd import Tomd
Tomd("<h1>h1</h1>").markdown
输出
# h1
from tomd import Tomd
html="""
<h1>h1</h1>
<h2>h2</h2>
<h3>h3</h3>
<h4>h4</h4>
<h5>h5</h5>
<h6>h6</h6>
<p>paragraph
<a href="https://github.com">link</a>
<img src="https://github.com" class="dsad">img</img>
</p>
<ul>
<li>1</li>
<li>2</li>
<li>3</li>
</ul>
<ol>
<li>1</li>
<li>2</li>
<li>3</li>
</ol>
<blockquote>blockquote</blockquote>
<p><code>inline code</code></p>
<pre><code>block code</code></pre>
<p>
<b>bold</b>
<i>italic</i>
<b><i>bold italic</i></b>
</p>
"""
Tomd(html).markdown
# h1
## h2
### h3
#### h4
##### h5
###### h6
paragraph
[link]( https://github.com)
![img]( https://github.com)
- 1
- 2
- 3
1. 1
1. 2
1. 3
> blockquote
`inline code`
**bold**
*italic*
***bold italic***
接收各种 issue 与 pull request, 代码量少容易理解, 大家可以一起参与进来
Github 地址: https://github.com/gaojiuli/tomd
1
mingyun 2017-05-26 23:09:14 +08:00 1
star + 1
|
2
lch277 2017-05-26 23:57:37 +08:00 via iPhone
已 star,建议提供一个命令行工具,使用起来更方便
|
3
lanpong 2017-05-27 00:16:41 +08:00
标记,已 star
|
4
4linuxfun 2017-05-27 08:46:37 +08:00
标记,已 star
|
6
oska874 2017-05-27 10:00:44 +08:00
https://github.com/LCTT/LCTT-Helper/
推荐这个 html 转 md 的工具,我们一直在用 |
8
lerry 2017-05-27 18:27:34 +08:00
我的爬虫也正需要一个这样的库,最后还是找了个 js 的,用 pyexecjs 调用 js 的函数去做的,哈哈
|