V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wyan453351466
V2EX  ›  程序员

花了两天的时间,写出了一个内容推荐引擎(一个面向程序员和极客的今日头条)

  •  
  •   wyan453351466 · 2017-10-11 10:49:37 +08:00 · 7453 次点击
    这是一个创建于 2601 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家好。。我言说的站长。

    这次我给网站开发了一个简易的内容推荐引擎。

    详情戳链接: www.yanshuo.me

    最初的言说首页,内容是按照时间排序的,大概每 10 分钟会推荐一条热门内容。

    现在加入了推荐算法,每次刷新会推荐不同的内容。

    本次推荐算法主要想实现的效果是,每次推荐的内容,既要保证内容的质量,还要保证内容的多样性,以及热度。

    不过现在由于用户数据不够多等的原因,推荐的内容还不够智能化。待优化的地方还有很多!

    希望大家在评论区给出您的意见,和大家用过的推荐算法。

    对爬虫和推荐算法感兴趣的同学,欢迎加群:566806792

    47 条回复    2018-04-27 10:43:08 +08:00
    hanangellove
        1
    hanangellove  
       2017-10-11 11:50:39 +08:00
    赞一个~
    wwdyy
        2
    wwdyy  
       2017-10-11 11:56:40 +08:00
    用的什么语言?
    wyan453351466
        3
    wyan453351466  
    OP
       2017-10-11 12:23:03 +08:00 via iPhone
    @wwdyy php
    shoumu
        4
    shoumu  
       2017-10-11 12:23:13 +08:00
    推荐算法是什么样的,详细说说?
    slince
        5
    slince  
       2017-10-11 12:47:06 +08:00
    楼上加一
    noNOno
        6
    noNOno  
       2017-10-11 13:00:27 +08:00
    楼上+1
    azh7138m
        7
    azh7138m  
       2017-10-11 13:13:12 +08:00
    粉色店、黑金店、LAB 概念店……喜茶的空间设计你学不会!
    还有 B 站&张大妈&知乎
    哪里程序员或者极客了......
    azh7138m
        8
    azh7138m  
       2017-10-11 13:14:39 +08:00
    建议好好做妹子图,这个是肛需:)
    andyiac
        9
    andyiac  
       2017-10-11 13:17:13 +08:00
    发现这个网站有一段儿时间了
    wyan453351466
        10
    wyan453351466  
    OP
       2017-10-11 13:50:11 +08:00 via iPhone
    @azh7138m 张大妈是什么。。现在推荐算法还不成熟。。可能会出现不相关内容。。多刷新几次试试
    SaltedFish12138
        11
    SaltedFish12138  
       2017-10-11 13:57:10 +08:00
    楼主抓煎蛋的妹子图,还没有说明..........这不好吧.
    azh7138m
        12
    azh7138m  
       2017-10-11 14:05:47 +08:00
    @wyan453351466 smzdm,一般我考虑过滤到微信的链接,或者让我扫码看微信的,文章质量大幅度提升,或者你直接抓 readhub 的 api 也行
    Chappako
        13
    Chappako  
       2017-10-11 14:11:27 +08:00
    那你也说说你的推荐算法啊
    Antidictator
        14
    Antidictator  
       2017-10-11 14:11:38 +08:00
    Chamber 都爬,调皮
    SoulGem
        15
    SoulGem  
       2017-10-11 14:18:19 +08:00
    这个之前就有在关注啊,看你的知乎热门还挺有趣
    zpvip
        16
    zpvip  
       2017-10-11 15:04:13 +08:00
    算法都不说,你这是炫耀吗?
    wyan453351466
        17
    wyan453351466  
    OP
       2017-10-11 16:11:20 +08:00
    @shoumu
    @slince
    @noNOno
    @zpvip

    目前的推荐引擎是基于内容的推荐。
    首先要对所有的元数据有一个建模,哪些是科技资讯,哪些是编程类的,哪些是娱乐类的。然后每次推荐时会抽取 10 几条不同类别的内容,进行评分并排序(评分的维度有,用户以往的访问习惯、内容的浏览数、赞数)。抽取评分较高的排在首位,并删除评分最低的后几条。

    现在用户数据不够多的情况下是用的这种方式。更科学的方式可能应该是基于用户的协同过滤推荐等方式(但是需要一定的用户数据才可以玩起来)。

    更详细的算法大家可以看这篇文章:
    https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html?ca=drs-

    现在的推荐引擎还很糙。。我也只用到了这篇文章中的一小部分思想。更多的大家可以互相探讨。
    hjdtl
        18
    hjdtl  
       2017-10-11 17:03:44 +08:00
    两天包括页面搭建吗?厉害了。。。
    oukichi
        19
    oukichi  
       2017-10-11 17:06:54 +08:00
    楼主帅呆了,这个风格很喜欢。
    zonzin
        20
    zonzin  
       2017-10-11 17:17:42 +08:00
    这不是死了的 DIGG 吗
    wyan453351466
        21
    wyan453351466  
    OP
       2017-10-11 18:03:42 +08:00
    @oukichi 谢谢!
    wyan453351466
        22
    wyan453351466  
    OP
       2017-10-11 18:04:13 +08:00
    @hjdtl 两天不包括页面。。页面得两个月还差不多。。
    xsliang
        23
    xsliang  
       2017-10-11 18:09:33 +08:00
    不错 加群学习下
    gamecreating
        24
    gamecreating  
       2017-10-11 18:29:41 +08:00
    采集搜狗的微信文章吗?
    wyan453351466
        25
    wyan453351466  
    OP
       2017-10-11 18:35:33 +08:00
    @gamecreating 采集的清博数据
    Tairy
        26
    Tairy  
       2017-10-11 18:39:07 +08:00
    刷妹子图的时候被老板看到了
    Tunar
        27
    Tunar  
       2017-10-11 18:39:42 +08:00 via Android
    @Tairy 然后
    Tairy
        28
    Tairy  
       2017-10-11 18:40:14 +08:00
    @Tunar 自觉关了
    joeke
        29
    joeke  
       2017-10-11 19:00:17 +08:00
    厉害厉害,这爬的哪里的数据,貌似什么都有,五花八门的
    only0jac
        30
    only0jac  
       2017-10-11 19:21:33 +08:00 via Android
    ui 做的相当舒服,请教楼主怎么弄的?
    rogwan
        31
    rogwan  
       2017-10-11 19:37:41 +08:00 via Android
    这是小号的今日头条嘛😄
    wyan453351466
        32
    wyan453351466  
    OP
       2017-10-11 19:56:17 +08:00 via iPhone
    @only0jac 就是用 bootstrap 改的。。
    wyan453351466
        33
    wyan453351466  
    OP
       2017-10-11 19:56:57 +08:00 via iPhone
    @rogwan 哈哈。被发现了😆
    wyan453351466
        34
    wyan453351466  
    OP
       2017-10-11 20:00:21 +08:00 via iPhone
    @joeke 妹子图吗?妹子图是爬的煎蛋网
    unique
        35
    unique  
       2017-10-11 20:05:29 +08:00 via iPhone
    很强,支持一下
    wyan453351466
        36
    wyan453351466  
    OP
       2017-10-11 21:38:40 +08:00 via iPhone
    @unique 谢谢!
    carlclone
        37
    carlclone  
       2017-10-11 21:57:37 +08:00 via Android
    厉害
    shitailongshenxu
        38
    shitailongshenxu  
       2017-10-11 23:48:26 +08:00
    很不错哦,能共享下源码吗
    davidqw
        39
    davidqw  
       2017-10-12 01:47:17 +08:00
    妹子图,一股清流啊... 有种回到 2000 年互联网的既视感
    Rootcat
        40
    Rootcat  
       2017-10-12 16:47:38 +08:00
    必须赞一个,这是本土化的 Reddit !!!
    建议开发 APP,移动端是主流了,PC 端用户有限。
    是个人开发的还是团队呢?
    备案信息是豫字,河南老乡啊
    wyan453351466
        41
    wyan453351466  
    OP
       2017-10-12 18:12:29 +08:00
    @Rootcat 是个人开发的哈。。对,河南老乡。哈哈。

    关于 APP 的事情,我也一直想搞。但无奈我本行一直是做 web 端的。APP 不是我的擅长。。
    这个未来看能不能找到有缘人,或者自己业余学习类似 react 这种技术来实现吧。(原生写的话实现成本对于我这个外行来说比较高,而且还得写两套)
    huangfs
        42
    huangfs  
       2017-10-12 21:02:55 +08:00
    开源地址?
    slince
        43
    slince  
       2017-10-13 21:17:36 +08:00
    风格很喜欢,后端是 php 啥框架做的
    dreamin
        44
    dreamin  
       2017-10-24 21:57:46 +08:00
    后端是 thinkphp ?
    wyan453351466
        45
    wyan453351466  
    OP
       2017-10-27 09:23:27 +08:00
    @dreamin 怎么看出来的😓
    qianmeng
        46
    qianmeng  
       2017-11-01 15:44:09 +08:00 via Android
    最近一段时间也迷上了 reddit,在 github 上面找代码看了很多。我也注册了言说,不过感觉还是机器爬取的内容质量更好
    susucoolsama
        47
    susucoolsama  
       2018-04-27 10:43:08 +08:00
    赞一个,2 天用 tp 写的就很屌了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   901 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 22:04 · PVG 06:04 · LAX 14:04 · JFK 17:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.