[入门实践] - 怎样用机器学习来提取网页正文

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 2669 天前的主题，其中的信息可能已经有所发展或是发生改变。

这是我第一次用机器学习来解决实际问题。之前一直是知道很多理论知识，但没找到合适的项目练手，后来突然想到可以把我提取Hacker News正文的算法用机器学习重新实现一遍。

所以有了这篇 Notebook 笔记，希望能够抛砖引玉，启迪更多的人：

4 条回复 • 2018-09-27 11:10:03 +08:00

ClutchBear

2018-09-18 12:11:43 +08:00

Newspaper3k ?

tshwangq

2018-09-18 13:46:49 +08:00

nice

polythene

2018-09-18 17:09:30 +08:00

@ClutchBear 哇，感谢分享！要是早点知道有这么神奇库，我就不用辛苦的发明轮子了，羡慕人家能把新闻分析做成这么成熟的库~

@tshwangq Thanks

yemoluo

2018-09-27 11:10:03 +08:00

过来膜拜下