想做一个极简的看电影打卡小程序，怎么爬取豆瓣信息才不违法？？

2022-12-19 15:12:20 +08:00

gaigechunfeng

###我想做一个极简的，只是看电影打卡的小程序，目前程序差不多完成 80%，但是一边写一边自我怀疑，爬取豆瓣的信息到底怎么才不违规？和 V 友们讨论一下：

爬取的标题、介绍、片名等都不在 robot 协议限制当中，这个应该是合规的吧？
封面、剧照等图片文件的地址被 robot 协议限制，我如果直接用豆瓣地址显示算违规吗？
我把豆瓣图片 download 下来，上传到自己的 oss 上面算违规吗？
如果违规了，但是我这么小的小程序，会被追究吗？
结合 234 ，如果我只爬 robot 协议限制之外的文字信息，图片什么的使用鼠标人工下载图片，再上传到 oss 上（其实这样和爬虫作用一样，但是我在小程序上声明，所有图片都是人工手动保存并上传的，这样违规吗？）
IMDB 上也不行，而且限制比豆瓣还多。

最后一点，如果怎么都绕不过去，我只爬取 robots 协议里面开放的文字信息，这个肯定没问题吧？？？

希望大家批评指正。

3320 次点击

所在节点

程序员

15 条回复

preach

2022-12-19 16:14:54 +08:00

以上问题在你用户量低于 100w 的时候都不是问题，当你有 100w 用户的时候自然能解决，所以放手干吧。

zxCoder

2022-12-19 16:33:04 +08:00

借楼提问，那如果我用豆瓣的图片，喂给 AI ，“画”出一张类似的图，违规吗 hhh

ruanimal

2022-12-19 17:57:31 +08:00

https://www.doubanapi.com/. 这个是官方提供的吗

gaigechunfeng

2022-12-19 20:01:01 +08:00

@ruanimal 我靠，官方都有啊。确实很容易就能爬取到。
但是官方这里的图片地址："http://img6.douban.com/view/photo/cover/public/p1642354684.jpg",
在 robots.txt 里面被 ban 了啊。
官方：我犯法我自己？

Orciorc

2022-12-19 20:09:34 +08:00

@gaigechunfeng robot.txt 只是君子协定，真违反了也得看官方的态度，总不会我告我自己吧

rekulas

2022-12-19 23:05:08 +08:00

doubanapi.com 这看起来可不像官方的，小心别被碰瓷了

gniviliving

2022-12-20 08:31:46 +08:00

@rekulas 这明显不是官方的，没 https ，还留个 github 地址

vZexc0m

2022-12-20 09:25:43 +08:00

和豆瓣谈商业合作，获得授权就行了。

luolw1998

2022-12-20 10:24:51 +08:00

用 tmdb https://www.themoviedb.org/

nekoneko

2022-12-20 17:40:08 +08:00

给豆瓣交钱, 或者给豆瓣画饼, 让他们投资你

safari9

2022-12-20 23:54:12 +08:00

@luolw1998 机智，lz 搞几个类似的网站得了不一定非要去爬豆瓣的毕竟豆瓣也不全。图和介绍都可以从 imdb moviedb tvdb 这几个网站搞不一定非要豆瓣。

fengyueheng

2023-01-26 20:17:15 +08:00

楼主小程序做好了吗

gaigechunfeng

2023-01-29 14:36:12 +08:00

@fengyueheng 哈哈，多谢兄弟问了一句。正在做，没停。做好了，我 at 你试用。
服务端用的 flask ，小程序用的 uniapp ，代码都好说。设计这块我着实有点头疼，想法太多太乱不知道该怎么设计。

13936

2023-04-20 10:39:48 +08:00

现在写小程序还能赚钱吗

gaigechunfeng

2023-04-20 20:13:33 +08:00

@13936 除了接点外包赚点人工钱。其它都不赚钱。我这个是个人爱好。：D

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/903500

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX