Autohome基于Scrapy爬虫框架,实现对汽车之家-文章进行定向爬虫,并将抓取的数据存放进MongoDB中。后期将对抓取数据进行简单的分析以及 NLP 的工作。
│ readme.md
│ requirements.txt
│ scrapy.cfg
│
├─autohome
│ │ __init__.py
│ │ items.py
│ │ pipelines.py
│ │ settings.py
│ │
│ └─spiders
│ __init__.py
│ autohome_spider.py
│
└─support_file
├─architecture
│ autohome_architecture.png
│ autohome_architecture.vsdx
│
└─four_theme
autohome_four_theme.png
part1.png
part2.png
part3.png
part4.png
pip install -r requirements.txt
可能会提示pip 不是内部或外部命令,也不是可运行的程序或批处理文件。,请点这里解决相应问题
scrapy crawl autohome_article
运行 Autohome 爬虫,其中日志文件会以运行爬虫的时间为名称写入 Autohome 根目录中,Autohome 项目爬虫就会正常运行了
Autohome 抓取的是汽车之家-文章页面,整个爬虫部分分成四大主题,分别是:文章简介、文章详情、文章评论、评论文章的用户。爬虫的根节点其中四个部分的逻辑如下:
Autohome 基于Scrapy爬虫框架,对四大主题进行抓取,整个流程图如下,其中绿色部分是 Scrapy 原生框架的逻辑,蓝色部分是汽车之家-文章的爬虫逻辑
setting.py
的ITEM_PIPELINES
节点中设置启动的 Pipeline这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.