html 文本如何只翻译文本而不翻译 html 标签

2019-07-27 11:10:48 +08:00
 cccy0

有一些文本, 内容大概就是 这样的

如何才能只把标签内的内容翻译成中文而不影响 html 标签呢

(我用百度直接翻译总是把一部分标签也一起翻译了 = =

2201 次点击
所在节点    问与答
11 条回复
singerll
2019-07-27 11:15:19 +08:00
文本过滤?
cccy0
2019-07-27 11:21:15 +08:00
@singerll #1 html 标签需要保留的, 不只是把文本提取出来
otakustay
2019-07-27 11:23:08 +08:00
用 HTML Parser,然后只翻译 Text Node
otakustay
2019-07-27 11:24:11 +08:00
不过代价是有时候一句话是放在 2 个标签里的,就会失去翻译的上下文
<p>This man is <em>colored</em></p>
十有八九会变成:这个人是有颜色的

这时候就需要 HTML 标签语义性来辅助判断怎么样算是一句话了,然而 99%的站点是不具备标签语义性的
andong777
2019-07-27 11:27:06 +08:00
我觉得应该有一些 parser 可以满足你的需求,以前搞过类似的。
Mohanson
2019-07-27 11:37:06 +08:00
估计楼主是想采集国外站然后谷歌翻译成中文祸害国内网络环境…
delectate
2019-07-27 11:46:20 +08:00
@Mohanson 一语中的。

其实很简单,就是用正则去掉 html 标签,看:python 过滤 HTML 标签 https://tushare.pro/document/1?doc_id=91
DovaKeen
2019-07-27 11:53:07 +08:00
@Mohanson 我记得搜索一些问题时候,会搜到某某云的论坛,里面的内容就是直接机翻 stackoverflow 的
cccy0
2019-07-27 17:17:35 +08:00
@otakustay #3
@andong777 #5
好的准备采用这种方法了= =
cccy0
2019-07-27 17:18:37 +08:00
@Mohanson #6
@delectate #7
@DovaKeen #8
不是, 是项目需要, 采集国外数据进行分析
heiheidewo
2019-08-17 18:39:17 +08:00
哈哈,腾讯云就是这么干的,权重没它的高,其他人没法搞

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/586648

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX