阿里云 OSS Ruby SDK 开发手记

2016-03-14 19:52:57 +08:00
 rockuw

阿里云 OSS是一个对象存储服务,类似于 Amazon 的 S3 。相比于自建存储,使用 OSS 能够迅速帮您搞定存储,并且大大地节省成本,提升可靠性和安全性。

现在,喜欢 Ruby 的同学终于可以优雅地使用 OSS 了。先看看 Rubyist 如何上传和下载文件吧:

require 'aliyun/oss'
bucket = Aliyun::OSS::Client.new(
  endpoint: 'http://oss-cn-hangzhou.aliyuncs.com',
  access_key_id: 'xxx',
  access_key_secret: 'yyy').get_bucket('bucket')

bucket.put_object('ruby') { |s| s << 'hello world' }
bucket.get_object('ruby') { |c| puts c }

bucket.put_object('rails', :file => '/tmp/x')
bucket.get_object('rails', :file => '/tmp/y')

是不是 so easy ? OSS SDK for Ruby 支持 OSS 目前绝大部分功能,主要的 highlights 包括:

下面我们随便挑几个来聊一聊:

1. iterator 形式的列表

OSS 用户在一个 bucket 下可能有成千上万的 objects ,所以 OSS 不会将 object 列表一次性全部返回,每次最多返回 1000 条。如果我要列出前 1001 个 object 怎么办?一般来说用户可能要调用两次接口。但是在 ruby 中你只需要一行:

bucket.list_objects.take(1001)

再比如用户要找 files/下文件名包含'ruby'的文件:

bucket.list_objects(prefix: 'files/').find { |x| x.key.include?('ruby') }

是不是非常方便?

2. 流式上传

流式上传允许用户动态地一边生成内容,一边上传到 OSS ,上传的数据可以 generated on the fly 。如下面的例子:

bucket.put_object('numbers') do |stream|
  (1..1_000_000).each { |i| stream << i << "\n" }
end

注意:这里并不是要 100 万个数字都生成完后再发送,而是一边生成一边发送的。

要做到上面的效果并不容易,试想一下,put_object要如何调用所接受的 block 参数?如果调用那么 100 万个数字都一口气生成完了,所以,如何能做到对一个函数调用一半? 答案就是使用Fiber

def hello
  puts 'hello'
  Fiber.yield
  puts 'world'
end

def world
  fiber = Fiber.new { hello }

  puts 'first'
  fiber.resume # puts 'hello'
  puts 'second'
  fiber.resume # puts 'world'
end

world

类似上面的代码,stream#<<内每接受一部分内容,会将自己 yield 出去,这样已经接受的内容就可以立即发送出去。有兴趣可以查看SDK 代码

3. 断点上传

在上传大文件时如果中途失败了,要重新上传是不是很沮丧?有了断点上传,中途失败后可以接着上次的进度继续上传。在 ruby 中只需要:

bucket.resumable_upload('object_key', 'local_file')

断点上传依赖于 OSS 提供的 multipart 功能,类似于一个事务:

只有最后一步成功后文件才算上传成功,在此之前文件对用户是不可见的。

文件被中断后如何恢复上传?如何知道哪些 parts 已经上传成功?这需要记录事务的状态信息。 SDK 的做法是将这些信息(称为 checkpoint )保存在一个本地的 json 文件中。每上传完一个 part 就更新一次 checkpoint 。恢复上传时从 checkpoint 文件中恢复上传的进度。

另外断点上传 /下载中也利用多线程实现加速,先看结果:

$ruby tests/test_large_file.rb -n test_large_file_1gb                                                                                                                                                     
Run options: -n test_large_file_1gb --seed 7587

# Running:

                                       user     system      total        real
Upload with put_object:           20.810000   1.880000  22.690000 ( 62.843336)
Upload with resumable_upload:     28.720000   9.740000  38.460000 ( 33.963555)
Download with get_object:         17.300000   4.550000  21.850000 ( 47.132476)
Download with resumable_download:  23.260000   9.530000  32.790000 ( 31.883211)

Ruby 或者 Python 的多线程一直是个“迷”,但是对于这种 IO 多场景,用多线程效果还是很明显的。因为进行 IO 的标准库函数在需要等待 IO 时会将当前线程切出去。参考: http://yehudakatz.com/2010/08/14/threads-in-ruby-enough-already/

一个简单的 demo

借助 rails ,可以在 15 分钟内搭建一个oss 文件管理器,可以查看 /上传 /下载文件,效果图如下:

更多

5387 次点击
所在节点    Ruby
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/263451

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX