V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
jizhou
V2EX  ›  分享创造

讷鱼 - 游向某一片海洋( Python 爬,手机使用)

  •  
  •   jizhou · 2020-05-01 15:17:44 +08:00 · 3895 次点击
    这是一个创建于 1700 天前的主题,其中的信息可能已经有所发展或是发生改变。

    之前收集过互联网上博客的网址:1309 个独立博客 😛 受开往与奋韩的启发。决定将废弃域名启用,讷鱼。🐟

    网址为: https://neyu.com/

    1 、私人使用,随机跳转到某一博客,发现一片蓝海🌊。

    2 、与开往不同,讷鱼主动采集全网博客,重视手机体验,使用 Python 爬虫,根据变量因子,links 等,分析源码,找到博客网址添加到讷鱼库或失效博客时刻上报。

    重点:初衷是放到手机桌面,偶尔游一下,发现一下好玩的博客(所以美化了图标等信息)。一定要放手机桌面哈。(如下图)

    网址如何放在手机桌面奋韩博客有教程: https://www.fenhan.net/134.html

    📌由于讷鱼 2000 毫秒转跳,所以添加到手机屏幕的时候,手速要快.

    🌞🙌

    23 条回复    2020-05-07 19:56:38 +08:00
    Whsiqi
        1
    Whsiqi  
       2020-05-01 15:22:37 +08:00 via Android
    兰州养生网?
    jizhou
        2
    jizhou  
    OP
       2020-05-01 15:24:01 +08:00
    @Whsiqi 网址是啥,可以删除!目前规则还没有非常严格。
    Whsiqi
        3
    Whsiqi  
       2020-05-01 15:26:21 +08:00 via Android
    @jizhou 兰州养生网是一个奇怪的网站,什么都有
    seo 非常高
    jizhou
        4
    jizhou  
    OP
       2020-05-01 15:29:05 +08:00
    @Whsiqi 库里面没有这个网址,奇怪~
    jizhou
        5
    jizhou  
    OP
       2020-05-01 18:08:20 +08:00
    @Whsiqi 确实,估计是作弊了吧。
    mgrddsj
        6
    mgrddsj  
       2020-05-01 18:40:13 +08:00 via Android
    楼上大概是在吐槽这爬取博客的方法像兰州养生网这样的垃圾采集站吧,并不是建议收录到你的库里去。
    mlboy
        7
    mlboy  
       2020-05-01 20:16:45 +08:00 via iPhone
    求收录 http://1thx.com
    learningman
        8
    learningman  
       2020-05-01 20:21:31 +08:00 via Android
    怎么判断一个网站是博客?这可不是个容易活,想不到人工以外的方法。
    jizhou
        9
    jizhou  
    OP
       2020-05-01 22:32:55 +08:00
    @learningman 这个其实蛮简单,博客有共性,比如 links 友情链接里面基本是博客。其次程序版本,其次就是内容,甚至文章页面规则。
    当日,具体规则还在优化。还需要完善。
    jizhou
        10
    jizhou  
    OP
       2020-05-01 22:34:40 +08:00
    @mlboy 已收录^_^
    raymanr
        11
    raymanr  
       2020-05-01 22:46:00 +08:00
    @learningman
    决策树或者朴素贝叶斯?判断错了删了就是了
    janda
        12
    janda  
       2020-05-01 23:29:03 +08:00
    这网站是做什么的?就是随机打开一个网址?
    yujiang
        13
    yujiang  
       2020-05-02 00:30:08 +08:00 via Android
    玩了一会,发现有概率跳转到菠菜网站。。。收录是人工审核的吗?
    Macguffin
        14
    Macguffin  
       2020-05-02 01:50:37 +08:00 via Android
    似乎会跳转到一些小说网,音乐网之类的,是因为页面布局和博客很像吗?建议加个关键词筛选
    yafoo
        15
    yafoo  
       2020-05-02 08:17:35 +08:00 via Android
    建议使用 location.href 来跳转,这样跳转后还能返回回来
    laycher
        16
    laycher  
       2020-05-02 11:00:34 +08:00
    很有意思!!
    i0error
        17
    i0error  
       2020-05-02 13:08:36 +08:00
    哦哦我猜到可能是怎么爬的了,评论博文时一般都会填评论者自己的博客地址。楼上说有 bc 网站,应该是灌水评论故意写的。
    learningman
        18
    learningman  
       2020-05-02 14:11:51 +08:00
    @raymanr 你也不知道你判断错了啊。。。判断判断错了还不是要人工
    learningman
        19
    learningman  
       2020-05-02 14:17:27 +08:00
    不过这个真的挺好玩的,每次跳转感觉都是打开了另外一个人的人生
    learningman
        20
    learningman  
       2020-05-02 14:38:00 +08:00
    刷到这么个玩意儿。。。https://www.pan199.cn/ 这种我觉得挺勉强吧
    jizhou
        21
    jizhou  
    OP
       2020-05-06 12:57:07 +08:00
    @i0error 确实判断规则还比较少,新增了 PWA,在 chorme 的安卓机器下可以直接弹出提示。
    jizhou
        22
    jizhou  
    OP
       2020-05-06 22:01:26 +08:00
    创造者日报首页推荐了,^_^
    mlboy
        23
    mlboy  
       2020-05-07 19:56:38 +08:00
    谢谢,希望增加个 api 可以手动增加.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5489 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 07:47 · PVG 15:47 · LAX 23:47 · JFK 02:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.