"此图片来自微信公众平台,未经允许不可引用"求老哥指导

2018-08-06 21:31:27 +08:00
 Youngda

爬虫抓了微信公众号的的一些图片,显示不出来,经测网上给的现有方法都失效了,求老哥指导一二。

4160 次点击
所在节点    程序员
15 条回复
inkedawn
2018-08-06 23:20:36 +08:00
加上 HTTP Referer 头
wayisama
2018-08-06 23:42:40 +08:00
ImgBridge 还能用,一个 PHP 跳板
Outshine
2018-08-06 23:54:25 +08:00
先说重点:利用网络爬虫技术抓取他人数据是非法行为

=============================================

最靠谱的是抓的时候把图片下载到本地,然后把对应的图片地址替换成本地的
MontagePa
2018-08-07 07:56:54 +08:00
3F 正解,我们也是这样做的,干到本地,传到自己的云,替换图片地址。
FrankHB
2018-08-07 08:53:55 +08:00
@Outshine 请指出违反哪一条法律。

搜索引擎服务商是否照此非法?
ebingtel
2018-08-07 09:15:12 +08:00
@FrankHB 前一段时间出来的梗
swulling
2018-08-07 09:42:52 +08:00
@FrankHB http://tech.sina.com.cn/csj/2018-06-19/doc-iheauxvz7582325.shtml

伪造 UA 爬取今日头条,侯某、宋某等人因为触犯非法获取计算机信息系统数据罪,被判九个月至一年不等的有期徒刑,并处罚金。

伪造 UA、Refer 之类的全部属于非法行为哈
swulling
2018-08-07 09:43:24 +08:00
@FrankHB 搜索引擎遵守 robots.txt ,你的爬虫遵守么?微信的 robots.txt 可不允许你来爬
beny2mor
2018-08-07 11:34:28 +08:00
灰色地带 可能犯法也可能不犯法
beny2mor
2018-08-07 11:37:21 +08:00
@FrankHB 指不定这张图片有版权呢... 虽然这和爬虫没关系..
zssdhr
2018-08-07 14:14:13 +08:00
@Outshine 说反了吧,存在自己服务器才违法,引用链接不违法吧?
Outshine
2018-08-07 20:06:57 +08:00
@zssdhr 没有,我下面一句说的是解决办法,上面一句是提醒楼主!
FrankHB
2018-08-08 01:40:25 +08:00
@swulling 这个和 3L 说的不是一回事。结合法条,这里伪造 UA 的非法是指非法控制,是绕过计算机系统安全手段的行为,适用的罪名是非法控制计算机信息系统罪而非非法获取计算机信息系统数据罪。而(2017)京 0108 刑初 2384 号中指出各被告人都同时被指控这两项罪名。就披露的案情来看,非法获取计算机信息系统数据罪的适用有疑点,因为被告获得的数据本身是排除非法控制下仍然可能合法取得的公开的数据,而非会引起系统失效的关键敏感数据。因此对本案判例是否具有代表性以及是否足以推论一般的爬虫技术涉嫌非法,仍有疑问。

关于 robots.txt:我了解的 robots.txt 是君子协定,能表示服务提供商在特定情形下明确的意愿,但不是自动成立的格式合同,也不是公众依法需要了解遵守的义务,更不是使用服务的法定前提。我了解的案例表明,因为 robot.txt 可能免除或减轻服务提供商的某些义务,但因为不具有法定强制效力,不能对使用者强加义务而自动排除争议使用的抗辩。如果有不同观点,请举出具体法律条款。

另外,希望听听专业律师的意见。
FrankHB
2018-08-08 01:45:38 +08:00
@beny2mor 有版权但并不一定必须限制他人使用。版权的一部分是不得不排他的(比如作者权中的署名权和发表权),否则就失去保护意义了;但使用版权作品造成财产权争议并不属于这种情况:使用的行为本身不会导致合法权利人自动失去权利。如果不盈利只是自己用,可能符合著作权法意义上的合理使用;但如果本来就卖钱导致经济损失,就不太可能允许了。
FrankHB
2018-08-08 02:50:19 +08:00
关于爬虫我想了一下,只要获取的是不对用户进行限制的能公开访问的数据,应该没那么容易非法。因为爬数据的有效操作说到底本质上和正常用户访问站点是一样的,都是请求 URI 的资源下载数据,单独的这种行为根本就没法和普通用户区分。要说区分也是按访问频率、资源消耗之类的而不是爬数据这个事实。极端点说,限制频率、模仿人的爬虫即便真的有不利影响(例如投放的广告没用了……),网站还能怎么区分?(好像可以判断连续在线时间—— emmm,雇人点点点一个个手动爬页面难道就非法了?看网页源代码而不是直接点 GUI 浏览器上的页面元素就非法了?用 CLI 浏览器就非法了?)还不如说允许这类客户端就是对不特定公众服务的站点需要承担的既定风险。所以我不认为有理由单独根据客户端是否为爬虫来获取数据来分辨使用的合法性。
顺带还有个疑问。
如果一个搜索引擎抓到一个要注册用户才能访问的页面,允许通过缓存给非注册用户访问;在注册条款没有明确(禁止)抓取页面的情况下,搜索引擎的行为是否仍然可能涉嫌非法获取计算机信息系统数据?注意要求用户凭据才能访问的信息毫无疑问不是完全公开的内容,而限制注册用户也可能涉及经济利益。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/477415

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX