最近做语言处理,要用词库,然后准备抓搜狗的词库
比如 http://pinyin.sogou.com/dict/cate/index/1
的 http://download.pinyin.sogou.com/dict/download_cell.php?id=15206&name=%E5%8A%A8%E7%89%A9%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
本人 python 小白,抓取的时候会显示 403,估计是防盗链,然后谷歌了一些模拟浏览器的代码,发现依然是 403
最后发现我直接打开这个链接就是 403,在词库下载的页面就可以下载,想问这个用的是什么防盗链的技术啊~
有没有人帮解释一下,告诉我可能用到的东西我自己去试试也好~比如 cookie?还是什么的~html 不是没有状态的么.cookie 不是在整个浏览器里面的吗,为啥我复制链接到新 tab 下就不行了呢......
求解答~~~
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.