工作摸鱼想法：是否有办法通过神经网络训练找到自己喜欢的类型的小说

2022-04-14 18:02:37 +08:00

LeeReamond

日常书荒，今天产生了一个想法是是否可以利用训练对网络上繁杂的小说进行筛选。

比如我可以人工总结一些自己比较喜欢的小说，比如有 20 本，A B C D E F G...如果作为语料库的话也有个几百上千万字，应该不算少了。然后搞一个系统，训练，以后再看到新的小说推荐的话先跑个分（例如衡量新小说跟喜欢的语料库的相似度），相似度分太低就不看了？

对 nlp 基本上是完全不了解，不知道能不能实现，用什么技术比较合适。我感觉从逻辑上讲，要训练网络去找一本小说的情节是否跌宕起伏、引人入胜，应该是比较困难的工作。但是如果要判断一本小说的文笔是否过于小白，感觉应该还是能做到？

1751 次点击

所在节点

问与答

14 条回复

bravecarrot

2022-04-14 18:43:59 +08:00

可以实现而且很简单，国内外大厂上有很多开箱即用的预训练模型

zooo

2022-04-14 20:40:11 +08:00

@bravecarrot 给个链接呗
想自己训练模型，根据自己日常阅读来推荐，自己把控。

idblife

2022-04-14 20:42:49 +08:00

不难
盗版在线 av 网站也有这功能呢

paopjian

2022-04-14 21:20:49 +08:00

把自己觉得好的小说打分高点,喂给 bert,让它打分?

LeeReamond

2022-04-14 21:42:43 +08:00

@bravecarrot 大佬讲讲相关技术，用什么模型，预训练哪里下载之类的，nlp 完全不熟。

@idblife 感觉是两码事，av 是视频，nlp 的技术可以用在图像分析上？

ALLROBOT

2022-04-15 00:17:57 +08:00

为什么不看看起点 app 的今日导读模块？

感觉还行，收了几本书

levelworm

2022-04-15 00:45:07 +08:00

我觉得没那么简单。有时候喜欢的书就是那种感觉，连我自己都不知道，又或者一本书我喜欢的可能就几个点，你让程序来跑他咋知道哪几个点是我喜欢的？比如说修仙四万年，这是唯一一本我看的修仙文，问题是他其实又不是典型的修仙文。

当然也许目前人工智能可以帮忙筛选就是了。也算是有点用。

levelworm

2022-04-15 00:47:05 +08:00

接上，可能简单但是更有效的做法就是看同样喜欢一本书的书友还看什么书，有些推荐系统就是这样的。但是这个就不需要人工智能了。

flyaway

2022-04-15 00:51:04 +08:00

https://huggingface.co/docs/transformers/index 大量的模型和数据，足够你玩很久了……

bugFactory

2022-04-15 09:50:00 +08:00

龙空崩了，大佬搞好整个 blog 啥的分享下

mjawp

2022-04-15 09:55:19 +08:00

难。你说的这种是基于内容的推荐。内容的推荐最难的是要提取风格特征，现在的神经网络单词能提取特征的文本长度最长是 512~1024.可想而知长文本还是一个相对较难的问题，更不要说超长文本了

mjawp

2022-04-15 09:56:46 +08:00

我自己做了一个小说的推荐系统，给自己用的，其实这种机器做出来的推荐还是有一定参考价值的，但是还是比不上专业的推书公众号的

aaniao002

2022-04-15 12:45:59 +08:00

哈哈。会不会找到一堆仿制小说。

LeeReamond

2022-04-15 14:42:30 +08:00

@mjawp 公众号推书最大的问题是平时根本也不用微信...

@levelworm 修仙四万年我印象里讲的是一个科技时代背景下的修仙故事，加上大势力斗争啥的，印象里跳着看过。。感觉这种的用神经网络提取应该有效果吧，毕竟普通修仙文里你提取不到那些现代科学技术相关的词汇，不就顺利选出特征了。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/846993

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.