V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
cyy564
V2EX  ›  Python

各位大佬请教一下,关于爬虫的过滤问题

  •  
  •   cyy564 · 2018-12-19 18:05:41 +08:00 · 1909 次点击
    这是一个创建于 2197 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现有一个爬虫,现在爬下来需要手动过滤一遍( ps 这里吐槽一下人工都无法完美筛选,挺蛋疼的,更别提只用脚本清洗了

    但接下来要定时抓取,每个月都要抓一遍,那么如何设定规则不让抓那些被筛除掉的数据,数据量会越来越大的感觉
    5 条回复    2018-12-19 18:58:07 +08:00
    jatesun
        1
    jatesun  
       2018-12-19 18:15:24 +08:00
    题目没有描述清楚过滤规则,所以没法给出具体的建议。如果过滤规则可以代码话,那就通过过滤器校验就好了。
    ClutchBear
        2
    ClutchBear  
       2018-12-19 18:17:14 +08:00
    url 个数量小,

    url 用 redis 的 set 去重

    url 数量多上百万
    用 redis 的 bloomfilter 插件去重
    cyy564
        3
    cyy564  
    OP
       2018-12-19 18:22:14 +08:00
    抱歉可能没描述清楚。

    没有过滤规则,没有去重的问题,简单说就是爬虫第一次手动筛掉的数据,如何在第二次不去爬它
    xpresslink
        4
    xpresslink  
       2018-12-19 18:55:26 +08:00
    记录爬过的每个页面的根域名和 path URL,给标题做 MD5 存摘要,爬虫爬这个网站前把数据库里存的 URL 列表或标题摘要加载到 set 里面。再爬时候比对一下。
    zarte
        5
    zarte  
       2018-12-19 18:58:07 +08:00
    没描述清楚你的数据是什么,词还是文本还是网页。除了文本应该都可以先把去掉的数据存起来,爬虫爬下来要存的时候过滤下。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5907 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 02:19 · PVG 10:19 · LAX 18:19 · JFK 21:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.