Scrapy 汽车之家定向爬虫, gayhub 求赞

2017-07-26 21:30:11 +08:00
 zhongjiajie

Autohome

Autohome基于Scrapy爬虫框架,实现对汽车之家-文章进行定向爬虫,并将抓取的数据存放进MongoDB中。后期将对抓取数据进行简单的分析以及 NLP 的工作。

运行环境

项目构成

│  readme.md
│  requirements.txt
│  scrapy.cfg
│
├─autohome
│  │  __init__.py
│  │  items.py
│  │  pipelines.py
│  │  settings.py
│  │
│  └─spiders
│          __init__.py
│          autohome_spider.py
│
└─support_file
    ├─architecture
    │      autohome_architecture.png
    │      autohome_architecture.vsdx
    │
    └─four_theme
            autohome_four_theme.png
            part1.png
            part2.png
            part3.png
            part4.png

使用方式

pip install -r requirements.txt

可能会提示pip 不是内部或外部命令,也不是可运行的程序或批处理文件。,请点这里解决相应问题

scrapy crawl autohome_article

运行 Autohome 爬虫,其中日志文件会以运行爬虫的时间为名称写入 Autohome 根目录中,Autohome 项目爬虫就会正常运行了

设计概览

爬虫设计概览

Features

TODO

Change Log

1408 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/378193

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX