新闻网页正文通用抽取工具 Node.js 版本

2019-10-09 12:36:15 +08:00
 jason94

上个月看到大佬发的/t/599166,国庆研究了一下代码和论文,把大佬的代码用 JavaScript 写了一遍,做了一些修改,目前感觉效果还可以。

下一步考虑在浏览器中运行。

repo: zenghongtu/general-news-extractor-js

online demo: https://general-news-extractor-demo.stayin.cn

2346 次点击
所在节点    分享创造
8 条回复
Sanko
2019-10-09 12:48:09 +08:00
资瓷
momocraft
2019-10-09 12:54:44 +08:00
不是新闻网页(比如没有日期)也适用吗?
cydian
2019-10-09 13:38:40 +08:00
图片呢?
0o0O0o0O0o
2019-10-09 13:38:49 +08:00
早就想要了,感谢楼主。

整到了 cloudflare workers 上

```sh
$ curl -s -o test.html http://baijiahao.baidu.com/s?id=1646431966952708911

$ curl -s -X POST https://demo.extract.workers.dev/demo -d @test.html | jq
{
"title": "国庆黄金...000 万人次",
"author": "",
"publishTime": "10 月 4 日",
"content": "..."
}
```
optional
2019-10-09 13:45:32 +08:00
jason94
2019-10-10 09:01:22 +08:00
@momocraft 不是日期的问题,算法不适用额
zjiecode
2019-10-11 08:24:12 +08:00
jason94
2019-10-11 11:28:41 +08:00
@mrjiejiejie 这篇应该正文太短了,最后算出来的分数低了一点,晚点我看看怎么修正

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/607398

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX