请教爬取裁判文书网的搜索信息,有没有现成的轮子呢?

2018-05-07 11:01:49 +08:00
 sjmcefc2

http://wenshu.court.gov.cn/ 想爬取搜索结果的统计信息,比如,搜索一个关键词,抓取左侧的年份,地域,案由筛选等等信息。 看了一些资料,反扒措施貌似很多,这样的需求应该不至于触发反扒措施吧

3305 次点击
所在节点    Python
6 条回复
18817837227
2018-05-07 14:21:38 +08:00
sjmcefc2
2018-05-07 14:28:56 +08:00
@18817837227 非常感谢哈。
有没有简单成型的,目前不需要爬下文档,只要个搜索之后的左边的统计信息就好了
18817837227
2018-05-07 14:38:19 +08:00
github 上有很多写好的爬虫,试试能不能用?
sjmcefc2
2018-05-07 14:39:05 +08:00
@18817837227 ok,话说,如果爬上面的文档,用什么数据库存储比较好?
18817837227
2018-05-07 14:41:49 +08:00
个人爬,量不多就一个表,就 mysql 呗。
用别人的代码,那就看代码用的是哪个库就用那个
jssyxzy
2018-05-07 18:51:01 +08:00
python/scrapy
文件或者上数据库

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/452705

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX