公司要求做个编辑器,支持输入链接能导入主流平台的文章,这需求怎么实现?

2022-03-01 15:27:57 +08:00
 Aliberter

要支持微信公众号 知乎 b 站 今日头条 这几家文章的,前端传给后端一个链接,后端去解析 html? 然后 html 转 word?转 markdown ?然后怎么返给前端,让前端显示在编辑器里...这个是不是有点难,大佬们

3072 次点击
所在节点    程序员
17 条回复
66beta
2022-03-01 15:32:42 +08:00
洗稿?
Aliberter
2022-03-01 15:37:02 +08:00
@66beta 不是 不干违法的吧
lcy630409
2022-03-01 15:37:28 +08:00
应该可以吧
把文字带 div 直接截取过去,然后把所有的 css 保存下来 生成新的 css 文件 地址也传过去?
样式肯定不能 100%还原,得手动编辑
或者只传文字,样式让前台重新编辑?
janus77
2022-03-01 15:41:50 +08:00
saigo
2022-03-01 15:42:33 +08:00
skiy
2022-03-01 15:43:07 +08:00
这个不难啊。把 URL 提交给后端服务器 API ,API 根据域名判断哪个平台的,CURL 获取该页面的数据,再根据该平台的规则将里面的内容提取出来,加工(可以后端直接加工后返回数据;或者组合成 json 返回给前端,前端自己生成相关格式的数据)
gadfly3173
2022-03-01 15:43:30 +08:00
这个需求就是写爬虫,解析成你们编辑器用的格式。只是很麻烦,难度可能也就是反爬怎么处理
murmur
2022-03-01 15:46:38 +08:00
这不就是手动洗稿么
shapl
2022-03-01 15:49:39 +08:00
@saigo #5 效果不行。感觉这类需求的难点是图片防盗链,各个平台的规则不同。

xingshu1990
2022-03-01 15:49:45 +08:00
类似 5118 一样,采集多平台指定关键词内容,混编内容用.
GrayXu
2022-03-01 16:41:41 +08:00
[simpread]( https://github.com/Kenshin/simpread)

> 为了达到完美的阅读模式这个小目标 ,我适配了 数百种类型 的网站,因此诞生了简悦。

这个工具可以实现你说的输入 html ,给出一个 markdwon 。本质上还是在做类似爬虫的工作。
chezhe17
2022-03-01 18:57:42 +08:00
@shapl 微信公众号需要自定义规则,因为 DOM 结构特殊,可以参考 https://github.com/Ark-ave/chrome-extention/blob/main/src/chrome/content.ts#L22 ,我之前做书签应用有类似实现,用的是这个库 https://github.com/mixmark-io/turndown 来转 HTML 到 Markdown
skiy
2022-03-01 19:16:52 +08:00
@shapl 防盗链大部分都容易解决,基本是基于 refer 来防的。
shapl
2022-03-01 23:17:51 +08:00
@skiy #13
@chezhe17

学习了。谢谢
shaojz2005
2022-03-02 09:22:59 +08:00
很多微信公众号的文章都是用第三方编辑器排版的,自带很多特殊排版格式,思路就是找到公众号文章正文对应的那个 div ,然后整个拿下来放到富文本编辑器里,对文章里的图片做远程下载上传服务器(因为防盗链),就可以了。

别的平台应该相对简单很多,因为排版格式没那么复杂。
dany813
2022-03-02 18:16:43 +08:00
没了解过
linsiqing2008
2023-06-01 16:30:03 +08:00
您好题主,请问实现了吗?有什么好的方案没? 楼上说的看了一遍都不贴合需求。

现在我这也有一个需求,就是在后台里,根据微信文章链接,一键导入 微信文章及资源下载到本地资源存储上。

求实现方法;谢谢。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/837193

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX