推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
zhangyouming
V2EX  ›  Python

新榜、豆瓣阅读数据抓取

  •  
  •   zhangyouming · Jul 24, 2017 · 3762 views
    This topic created in 3226 days ago, the information mentioned may be changed or developed.

    公司最近在做上量,用两天时间从零开始学习,写了两个网站的抓取 demo、

    新榜抓取: 1、接口是加密的,通过页面的 js 分析出了接口请求数据的加密规则。 2、需要登录才能获取数据。通过 selenium 模拟用户登录。然后抓取数据 豆瓣阅读: 1、频繁请求会封掉 ip、使用随机代理、请求延迟去获取数据

    项目地址戳我,喜欢的话给个 star 吧。

    zhangyouming
        1
    zhangyouming  
    OP
       Jul 24, 2017
    第一次发帖。好紧张,自己顶一下。
    mingyun
        2
    mingyun  
       Jul 24, 2017
    支持 py3 就好了
    zhangyouming
        3
    zhangyouming  
    OP
       Jul 25, 2017
    @mingyun 写的时候 由于刚接触 不了解 2 和 3 有啥区别 mac 上自带 2.7 版本,所以就直接用了。。。。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5841 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 03:42 · PVG 11:42 · LAX 20:42 · JFK 23:42
    ♥ Do have faith in what you're doing.