论文数据库爬取?

2018-05-16 10:00:06 +08:00
 okface
1.不是知网、万方;
2.在 tb 上买了一个集成平台的账号,号称几百个数据库论文都可以搜索到,登陆后可以选择你要跳转的数据库,然后这个数据库你就可以任意搜索下载了。想知道这种跳转技术是如何实现的,人家数据库那边不会检测到你是违法账号吗?如果要抓该数据库,直接传个 cookie 就行了?

ps:招爬虫工程师,联系 zgp6300@dingtalk.com
2952 次点击
所在节点    Python
15 条回复
zynlp
2018-05-16 10:10:16 +08:00
这是在面试吗?
ProkillerJ
2018-05-16 10:15:49 +08:00
htfy96
2018-05-16 10:20:53 +08:00
2 的话,一般是买了这些数据库的某个学校的校外代理账号泄露了,你连集成平台,集成平台把你的请求通过校外代理发出去。分析过之前买的某家就是利用了兰州大学的校外代理
okface
2018-05-16 10:25:51 +08:00
@zynlp 没有那么刻意吧。。当然面试聊这个也可以啊
okface
2018-05-16 10:26:48 +08:00
@ProkillerJ 地址打不开。。。被知乎删掉了吧
omph
2018-05-16 10:45:25 +08:00
偷的合法帐号,就这样
PythonAnswer
2018-05-16 11:02:24 +08:00
小哥就是被捉然后自戕的 注意法律风险
yu099
2018-05-16 11:05:50 +08:00
这个下载一多比如一下子几小时上百篇,直接整个学校论文下载都停掉了。
学校被这样子搞过
ProkillerJ
2018-05-16 11:39:08 +08:00
复制错了 应该是这个 https://zhuanlan.zhihu.com/p/27609168
@okface
seven2016
2018-05-16 11:43:27 +08:00
跟 vip 视频解析一个原理呀,肯定是有合法的账户能够看到每个数据库的内容,才能抓下来。然后根据用户的需求构造参数用户合法账户去拿数据返回给用户。
Leigg
2018-05-16 12:26:07 +08:00
你都没试过,就来问,人家说的是给你搜索,不是给你爬,一个是人,一个是程序
ioth
2018-05-16 12:30:15 +08:00
兼职
alvin666
2018-05-16 13:02:38 +08:00
正规数据库是肯定有反爬机制的,我们学校买的数据库之前就因为下载量太大被封了一些 ip,要是不正规的数据库,谁知道里面的论文哪来的
xmoiduts
2018-05-16 13:12:35 +08:00
触发反爬,直接上门。学校有过翻车经历,题主慎重。
当年那几个老哥好像下了 7w 篇。
googlefans
2018-05-16 22:16:03 +08:00
肯定会被封

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/455186

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX