请问这种 html 格式的文本怎么用 Python 处理?

2021-09-07 21:56:08 +08:00
 Ra1nb0w
<tr class="infolist_hr_common" onMouseOver="javascript:this.className='infolist_hr_current'" onMouseOut="javascript:this.className='infolist_hr_common'"><th nowrap >第 1 节<br></th><td id="1-1" class="center">&nbsp;</td><td id="2-1" class="center">&nbsp;</td><td id="3-1" class="center">&lt;&lt;国际贸易实务&gt;&gt;;1<br>南 1-XXX<br>XXX<br>1-14 周<br>讲课学时<br>&lt;&lt;国际贸易实务&gt;&gt;;1<br>XXX<br>15-16 周<br>实验学时</td><td id="4-1" class="center">&nbsp;</td><td id="5-1" class="center">&lt;&lt;国际贸易学&gt;&gt;;1<br>南 1-736<br>XXX<br>1-2 周<br>讲课学时<br>&lt;&lt;国际贸易学&gt;&gt;;1<br>南 1-XXX<br>XXX<br>5-18 周<br>讲课学时</td><td id="6-1" class="center">&nbsp;</td><td id="7-1" class="center">&nbsp;</td></tr>
</table>
1492 次点击
所在节点    Python
4 条回复
luckyx
2021-09-07 22:14:23 +08:00
考虑一下 beautiful soup?
Ra1nb0w
2021-09-07 22:44:11 +08:00
@luckyx BeautifulSoup 格式化之后的会不全,不知道为什么,看了元数据是没错的。
rationa1cuzz
2021-09-08 09:18:46 +08:00
代码不贴出来怎么? soup = BeautifulSoup(rsp, "lxml") 我的是全的
Ra1nb0w
2021-09-25 02:44:03 +08:00
@rationa1cuzz 可以用了,谢谢,之前不知道哪里的数据处理有问题,重写了一遍好了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/800496

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX