关于爬虫拖库的一些疑惑

2015-02-07 13:24:49 +08:00
 professorz
像http://epub.sipo.gov.cn/gjcx.jsp 这个网站,通过关键词检索能否遍历它数据库里面所有的项目?如果可以的话,这种网站的拖库是不是挺容易的?
4067 次点击
所在节点    Python
6 条回复
arkilis
2015-02-07 13:37:42 +08:00
但是你怎么知道这个是数据库中所有的内容呢。

拖库就是一点不剩给拖下来。拖:音调 一声
wdlth
2015-02-07 14:29:42 +08:00
这个只能叫抓取、采集数据,真正的拖库不只是数据,还要有关系。
GeekGao
2015-02-07 16:03:11 +08:00
理论上是可以获取到所有专利文档数据的,但数据库中的表结构、关系你是“拖”不出来的。
professorz
2015-02-07 21:11:51 +08:00
@arkilis 嗯,我发现了点bug,比如搜索1985年的数据,“只勾选发明公布”和“四项都勾选”两种情况下,得到的发明公布的数量不一样!奇怪~~
professorz
2015-02-07 21:13:00 +08:00
@GeekGao 感觉上这种数据库好像没什么表关系。。。甚至4张表就能包含所有数据。。
GeekGao
2015-02-07 21:52:03 +08:00
@professorz 你跑题了,我是说他们的数据库本身,而不是如何设计这个系统。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/169019

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX