爬取数据时，是不是只能每个网站每个网站的分析，有没有通用的方式？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3202 days ago, the information mentioned may be changed or developed.

各位爬虫大大们，在爬取数据时，是一个网站一个网站的分析来爬取的，还是说有一种通用的方式来进行？抓取数据的入口和抓取到的数据是如何保持通用性呢？

网站

数据

通用

通用性

16 replies • 2017-08-10 18:37:30 +08:00

onlyice

Aug 2, 2017 via Android

没有通用的方式，一个一个来

数据通用性的话，先多观察你要爬的网站的数据结构，再根据这个定出你的数据库结构。遇到新网站不兼容时，积极重构代码和数据库

jingniao

Aug 2, 2017 via Android

如果想要格式化的数据，没什么好的方法。
非格式化的数据那就是搜索引擎的那样的了。

dong3580

Aug 2, 2017

@jingniao
你有没有发现，google 的格式化视图结果居然能够针对各个网站格式化数据，而且做的很好。

agentwx

Aug 2, 2017

@dong3580 google 的格式化视图是什么？ google 下没找到是什么呢

chendajun

Aug 2, 2017

做爬虫也好多年了，一般抓取网站中的标题，文章发布时间，正文，文章图片。可以做到 80%用通用规则解决。
1，标题：在提取链接的时候把 link title 保存下来
2，文章发布时间：用网页 heads 里的 last modify
3，抽取正文：有开源的模块（ Python 有 readability-lxml，Java 有 JoyHtml
4，文章图片：在抽取的正文中提取<img>