训练了一个生成「情感投稿故事」的文本模型

2023-06-05 10:18:20 +08:00
 graetdk
有感于最近 V2EX 看到的情感故事比较多,所以我从 V2 选了一些,再从微博爬了两千条情感投稿贴,然后训练了一个文本模型,并写了一个简单的前端展示






每分钟自动生成 2 条,随机展示一条


因为用的 7b 的模型,所以局限也比较明显,很多时候逻辑都是错误的,这几天我会用 13b 的模型再跑一次。

就目前来看,大概 10 条里会有 1-2 条比较像那么回事,因为我一开始没报啥预期,所以觉得还可以哈哈


围观地址: https://story.greatdk.com
2143 次点击
所在节点    分享创造
18 条回复
zhangfeiwudi
2023-06-05 10:46:22 +08:00
哇 不错啊老哥 能开源吗 用的是清华的模型吗
zhangfeiwudi
2023-06-05 10:48:31 +08:00
@zhangfeiwudi 看了博客 原来是做了开源自己聊天的大佬,那模型应该是用的 清华的或者 llama 最近也在搞这方面的调研 不管怎么说 先关注一波
strivezheng
2023-06-05 10:49:34 +08:00
好家伙,抖音上刷到过好多这种
wonderfulcxm
2023-06-05 10:53:15 +08:00
为什么没有标点符号?
zapper
2023-06-05 10:53:19 +08:00
可以了,一天生成一条,流量嘎嘎有
bottleGuo
2023-06-05 10:57:35 +08:00
大佬,我想请教一下,你是怎么自定义算法,且将算法部署到服务器,然后以 API 的形式开放出来的,方便加一下你的微信咱们聊聊吗?
graetdk
2023-06-05 10:58:35 +08:00
@wonderfulcxm 我也不知道,数据集里大多数应该是都有标点符号的,挠头
zapper
2023-06-05 10:59:18 +08:00
先随便生成几条,扔进 chatgpt 让他整理成通顺的故事就行。就是输出老是会 at 个极。个级是什么?
graetdk
2023-06-05 10:59:27 +08:00
@bottleGuo 从你的问题来看,你对 llm 应该完全没啥经验,可以先搜点资料,例如把 llama 最基本的版本跑起来再说
graetdk
2023-06-05 10:59:58 +08:00
@zapper @我的前任是个极品,从这个微博爬了很多。。。
rigan
2023-06-05 12:17:15 +08:00
我跟我男友快一年了,我们两从高三开始在一起到现在毕业各自去各地读书工作了。一开始他给我的感觉特别暖男对我也好我现在都大学了他家里条件一般然后一起出去旅游什么的都是让他家人付款(他觉得比较不好意思我比他生活费多)平时一起吃饭什么他也是从来不让我一分钱不要的意思然后他朋友出去玩我都会跟着的但我从来没问过什么时候回来他就只说他会回去因为我觉得既然问了的话肯定会有答案就一直没问过他是怎么玩归到他的口中就是经常加班之类的后来有次吵架他说我不体贴不给他省钱等以后呢现在我们一起出来玩的时候都是我花钱而且我不是乱买东西我是真的好想要东西但没什么钱但是我就也没说什么毕竟也买了两次也不是每次出门消费那么贵的东西我之前也就只花过一次觉得这次之后也不会再变了当时心里就有点不开心我说没钱你买不起吗但是他说我小心眼子想太多还说没给我买她就那种意思说下次一定买的.自此我真的觉得他是好好处的态度?那我也不能拿男朋友的钱说他就说我的反思怎么的吧!最后我没要钱自己又花了一两千买吃的玩的我还生气告诉他才这样还和我那顿然后就冷战了一两周他还是一样找我说话但他一直也没有提和我相处的问题相反还经常和我说关于如何照顾他妈和他弟弟的事情其实我心里感觉挺不舒服的是之前刚在一起的时候还会因为他不想看他家亲戚们单独聚会要和他们住大房间之类我当时不太乐意因为我本身不喜欢和别人住的可那次后我一直很想和他在一起我又不愿意做改变我自己的决定所以很困惑
jadelike
2023-06-05 14:47:30 +08:00
有点短啊,能生成长篇么<br/>


我想问问女生们!!你们最忍受不了对方什么??我最近发现我男朋友有点情商低他跟我聊天会秒回吗,如果是的话然后聊一会他会突然很 End of Story...的跟我说“我想你了”。是真的很频繁这种....平时工作很忙所以一般就是第二天回复他的吧但有时候因为比较懒我也不会主动说很多话。然后就一天没说话的那种我真的蛮难受可是我又说不出什么的
jojobo
2023-06-05 17:52:05 +08:00
真厉害
graetdk
2023-06-05 18:00:34 +08:00
@jadelike 有时候有长的,长的往往更错乱
abc0123xyz
2023-06-06 09:31:27 +08:00
我去知乎提问了😁
1044523901
2023-06-06 14:12:22 +08:00
牛逼啊
kitmyfaceplease2
2023-06-06 15:01:17 +08:00
哇,作者是之前用聊天记录生成自己的大牛啊。又做出了这个有趣的东西,点赞👍
coolfan
2023-06-07 10:31:56 +08:00
哈哈哈哈 就是没标点得慢慢读

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/945834

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX