我想做个AV评分网站。

2013-06-27 16:40:55 +08:00
 krfantasy
为什么就没个像豆瓣一样的给电影评分的AV评分网站呢。当然不提供种子、片子的下载。

AV界坑爹的片子太多了,封面看起来都很好看,辛辛苦苦查番号、找种子,好不容易下好后却发现封面的PS技术简直超神,有木有!!!所以觉得做个这样的网站还是有必要的,这样就能很快找到较好的片子,也提供了一个供大家交流的平台。
124583 次点击
所在节点    奇思妙想
173 条回复
krfantasy
2013-07-04 18:20:34 +08:00
@Loerise 额...其实发完贴后,一直闲着...
niklaus520
2013-07-04 18:50:55 +08:00
LZ你居然还在闲着!!!F5都烂两个了有木有!!!!
sophy
2013-07-04 20:15:35 +08:00
收藏了。。。
iZr
2013-07-05 18:39:18 +08:00
@summic 我也去下載了。哈哈。我想起asp。。。唉。。
PeterD
2013-07-06 15:39:56 +08:00
我在抓取fanhao.org和dmm.co.jp的数据,估计有45474部影片的数据。估计7月10日左右可以抓完。

以下是我的做法:(代码用shell写)
1. 用wget备份cn.fanhao.org
2. 从备份的cn.fanhao.org中抓取番号,作品名称,发行商,出版日期,片长,演员和简介。
3. 从google缓存中获得一部影片在dmm.co.jp上的大封面,小封面,影片截图,影片类型和最总要的评分(ratings)。

数据储存为json。
-------------
鉴于dmm.co.jp在天朝不能访问,选择从google抓取dmm.co.jp缓存。
由于webcache.googleusercontent.com限制访问次数,用west-chamber-proxy (https://github.com/liruqi/west-chamber-season-3) 可突破访问限制。
www.google.com/search?q=data每次可连续访问100请求,每限制请求后2min后解除限制,但多次限制后会出现图片识别认证,需要手动输入。(奇怪的是不能用代理解决)
-------------
访问dmm.co.jp的图片没有地域限制,如:
http://pics.dmm.co.jp/mono/movie/adult/1star399/1star399pl.jpg
-------------
代码贴在:
https://gist.github.com/PeterDing/186332d7716fab7a64e2
cheung
2013-07-06 17:12:18 +08:00
@PeterD 求在多提供一些数据来源站点
PeterD
2013-07-06 18:15:25 +08:00
b824379598
2013-07-06 18:46:48 +08:00
只有后排了
krfantasy
2013-07-06 19:01:31 +08:00
@PeterD 感激不尽!!!
andy12530
2013-07-06 19:12:57 +08:00
@hzlzh 窝裤子都脱了,你就给我看IOS的开发知识?
andy12530
2013-07-06 19:15:45 +08:00
@krfantasy 参考douban,刚开始你来做图片工作,后面让用户自己弄。。。。

AV界的牛人还是蛮多的。。。
PeterD
2013-07-11 00:30:45 +08:00
爬虫跑了4天,得到44199部影片的信息,平均每天10000个左右,数据在 https://docs.google.com/file/d/0B-FIgFlYXgPtaGhiTkN4ZkJpSUk

-------------
数据都为有码影片的信息,遗憾没有找到无码的数据。
-------------
哪位大神知道有像dmm.co.jp一样的网站提供所有的无码片的数据。
outmanone
2013-07-11 08:11:25 +08:00
我想加入行不? 我老早前也想做一个,但苦于患有严重的拖延症,只好作罢。
chilaoqi
2013-07-11 10:00:52 +08:00
默默收藏!
aaronrzh
2013-07-11 10:04:28 +08:00
一谈到AV,就异常火爆了!!!刚性需求就是这么屌
stevenlordiam
2013-07-13 23:30:17 +08:00
在这个帖子里发现了好多好网站,毒德大学
regent
2013-07-13 23:47:50 +08:00
@PeterD 为什么west-chamber可以突破Google的限制?还是你这里的意思是抓取的时候突破防火墙的限制
shin
2013-07-14 02:55:23 +08:00
其实想想草*、SIS那些站长。

赚多少,才冒多大风险嘛!
PeterD
2013-07-14 10:46:22 +08:00
@regent 用west-chamber-season-3代理抓取webcache.googleusercontent.com,不会出现单一ip请求次数的限制。

-----------
使用的west-chamber-season-3版本为 https://github.com/liruqi/west-chamber-season-3/tree/3e633e7950df3438ce9f2ec2913a745a20c277e7
west-chamber基于的是goagent,我想google没有限制appengine上的appid抓取webcache.googleusercontent.com
我不清楚google的防火墙是否也如此。
PeterD
2013-07-14 11:01:35 +08:00
昨天刚发现的:
everaver_1.3.1 抓取的网站
有码:218.223.35.132
无码:69.28.53.222
-----------
感谢 @ibolee 的提醒,不发网址了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/73841

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX