推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Marsss
V2EX  ›  Python

Python 爬虫的活,有感兴趣接活的么。

  •  
  •   Marsss · May 21, 2020 · 6059 views
    This topic created in 2181 days ago, the information mentioned may be changed or developed.

    背景:同事的小孩,毕业设计里有一块,是通过程序抓取电力舆情信息,存储到数据库,筛选热点词汇进行展示,支持数据导出.

    他小孩没学过 Python,不知道为什么他们老师要求他做这个。于是他老爸找到我这了,我程序写到一半,问了一句需要界面吗,结果是要,如果不要,无法展示给老师看,我想了一下也是,在命令行下展示,不说他不会,他老师也看不懂,没有效果。总之就是要做个带界面的。emmmm.....,想了一下,还是让论坛里有空余时间的老兄们来做好了。。。

    需求我再稍微描述清楚一点: 1.抓取目标网站,他告诉我的那个网站我看了,是个小站,数据量很小,链接也很规律,就给他全爬了吧。提取字段:标题,URL 、文章内容、文章时间等应该就够了。

    2.将数据存储到数据库,我理解吧,从简,sqlite3 即可

    3.热点词汇筛选,就是再从数据库里取出数据,从标题以及文章内容里提取给定的热点词汇(他就告诉了三个词汇),做点统计展示出来

    4.导出数据到 txt 、doc 、pdf

    没啥难点,要做个界面,界面上四个按钮对应上面四个需求,一个展示控件,要求:不能做太好看了,哈哈。我让他具体画了一下,到时候联系他。

    多少钱以及更多细节,联系他沟通一下吧,如果说你们沟通之后有需求出入,你直接视变化谈价即可。他们都是非计算机专业的,对代码什么的不理解,沟通时稍微有点耐心。

    这是他微信:wxid_r25xosiov3ou22

    Supplement 1  ·  May 21, 2020
    原始微信加不了么,那加这个吧,也是他的 13622852300
    29 replies    2020-06-02 10:10:03 +08:00
    zengxs
        1
    zengxs  
       May 21, 2020
    虽然原则上不建议毕设作弊,不过这个时间点,不找人做估计毕不了业了

    这小孩就算作弊也要硬把毕设拖到这个时候,拖延症比我还厉害了
    mitu9527
        2
    mitu9527  
       May 21, 2020
    亮点:不能做的太好看了。可惜我是 PHP 不是 Python 。
    antpi
        3
    antpi  
       May 21, 2020
    联系一下 VX MTg5Mzc4NTU2MTU=
    Marsss
        4
    Marsss  
    OP
       May 21, 2020
    @zengxs 是的,时间上有点紧,不过抓紧点,两三天也搞定了。
    @mitu9527 现在学校流行 python,其实没啥,我慢慢也用的少了。
    Vegetable
        5
    Vegetable  
       May 21, 2020
    答辩不都完事了吗
    Marsss
        6
    Marsss  
    OP
       May 21, 2020
    @antpi 你联系一下他把,下面有他微信号。
    zengxs
        7
    zengxs  
       May 21, 2020
    @Vegetable 一般是 6 月答辩,6 月底发毕业证
    antpi
        8
    antpi  
       May 21, 2020
    @Marsss 原始 wxid 加不了好像
    gou7ma7
        9
    gou7ma7  
       May 21, 2020 via Android
    做界面的话,这个可能会用到 qt,这个我倒是不会,爬虫倒是会。
    malusama
        10
    malusama  
       May 22, 2020
    非计算机专业为啥毕设是这个...
    nasmatic
        11
    nasmatic  
       May 22, 2020   ❤️ 5
    感觉挺简单,qt 画个界面,三个按钮,再加个 webview,一个按钮爬,一个按钮取数据用 echarts 加工放 webview,一个按钮导出,答辩的时候对着界面直接和老师说:给爷爬!答辩不就过了吗
    levelworm
        12
    levelworm  
       May 22, 2020 via Android
    qt 和简单的爬虫倒是会,他有兴趣学不
    zxc12300123
        13
    zxc12300123  
       May 22, 2020 via iPhone
    还用 QT 么,生成词云(一张图片)就好 /狗头
    qfdk
        14
    qfdk  
    PRO
       May 22, 2020 via iPhone
    只会 nodejs py 不搞 有兴趣找我 一天搞定哈
    wnpllrzodiac
        15
    wnpllrzodiac  
       May 22, 2020 via Android   ❤️ 2
    面向监狱编程。。。
    Cmdhelp
        16
    Cmdhelp  
       May 22, 2020
    虽然很简单,但是不想做。。。
    ctro15547
        17
    ctro15547  
       May 22, 2020
    1.请先确认好该网站的 robots 以免被坑
    2.百度一下 scrapy,有一点点语言基础的,预计一个早上就能搞完脚本
    3.界面想快就用易语言,cmd 调用脚本接口完事
    EKkoGG
        18
    EKkoGG  
       May 22, 2020
    老师要求 Python 吗,感觉这个要求 .NET 做起来更快
    AndyZhuAZ
        19
    AndyZhuAZ  
       May 22, 2020
    难度确实不大,我觉得展示不一定需要客户端应用程序展示啊,用 jupyter 不就好了
    whoosy
        20
    whoosy  
       May 22, 2020
    @nasmatic 谢谢兄弟 有被笑到
    kennnnnnnnnnn
        21
    kennnnnnnnnnn  
       May 22, 2020
    @nasmatic 笑死
    inktiger
        22
    inktiger  
       May 22, 2020
    爬虫工程师,可惜我是 java
    leapV3
        23
    leapV3  
       May 22, 2020
    scrapy+pyqt 很容易实现你的要求,想好看的,也可以做一个管理后台
    superrichman
        24
    superrichman  
       May 22, 2020 via iPhone
    功能不复杂,但不支持学术造假
    cherbim
        25
    cherbim  
       May 22, 2020
    这个特台简单了吧。。。。。
    wersonliu9527
        26
    wersonliu9527  
       May 22, 2020
    @nasmatic 笑笑,有被谢到
    jizhihaoSAMA
        27
    jizhihaoSAMA  
       May 23, 2020
    tkinter 多好啊,秒做。不需要 qt
    zytomorrow
        28
    zytomorrow  
       May 26, 2020
    爬数据倒是还好,刚帮人怕了一大堆微博相关疫情的数据。展示就几个词云,如果非要界面,用 flask 做后端,准备几个接口比较快
    Macv1994
        29
    Macv1994  
       Jun 2, 2020 via Android
    还需要做吗?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5630 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 117ms · UTC 03:45 · PVG 11:45 · LAX 20:45 · JFK 23:45
    ♥ Do have faith in what you're doing.