介绍:
IMDB 有个最流行电影(“ Most Popular Movies ”)的列表,把电影名称翻译成中文,并且点击后直达国内各种平台(爱奇艺,豆瓣,等等)。
网址:
代码
https://github.com/http-liuzhiyong-me/dianyingxia ( 求 star :-) )
演示
http://www.dianyingxia.com/ ( IMDB 页面加载有点慢,它没有国内服务器嘛)
技术:
Python 抓取 IMDB 页面,找到所有电影的英文名称。
Python 通过“豆瓣搜索”翻译成中文名称(“豆瓣翻译”真的很强)。
Python 通过 FTP 上传到我的香港 Web 服务器。
HTML 使用了“<base href=”标签,页面引用的资源可以正常加载。
JS 脚本收到用户点击链接,显示国内资源。
历史:
刚开始做这个小项目,把国内榜单也包括进来了,最客观的国内榜单是:
http://top.baidu.com/buzz?b=26&c=1&fr=topcategory_c1
但是这榜单是不允许爬虫的:
http://top.baidu.com/robots.txt
User-agent: *
Disallow: /
于是我幼稚地用了这里的 IFRAME 代码嵌入:
http://top.baidu.com/add?fr=topbuzz_b26_c1
网上一大片骂声,“页面太丑了”,于是我把网站关闭了。懒得搞了,因为没法改进,禁止爬虫,只能用 IFRAME 嵌入。现在只做 IMDB 翻译版,没有多个榜单混合,虽然丢失了重要信息(国内的电影榜单),但是确实好看多了。