Ansible 学习指北

2018-05-15 15:15:53 +08:00
 wsgzao

前言

因为工作的缘故接触并积极推动 Ansible 在企业级生产环境的落地,独立承担并实现了《基于 ansible 的主机自动化配置管理》项目,此前也先后接触过 Puppet 和 SaltStack,本文不会讨论开源或者自主研发方案的优劣,重点是和大伙儿分享自己在 ansible 技术领域积累的一些项目实战经验,如果大家遇到任何问题也欢迎通过留言或者其他方式进行互动,我尽力做到有效回复。

Ansible is Simple IT Automation

更新历史

2018 年 05 月 15 日 - 初稿

阅读原文 - https://wsgzao.github.io/post/ansible/

扩展阅读

ansible - https://docs.ansible.com/


Ansible 标准化学习路径

Ansible 相关的书籍在逐步增多,由于 Ansible 版本迭代更新频率高但学习成本低,个人建议书为辅,官方文档为主

Ansible is an IT automation tool. It can configure systems, deploy software, and orchestrate more advanced IT tasks such as continuous deployments or zero downtime rolling updates.

Ansible ’ s main goals are simplicity and ease-of-use. It also has a strong focus on security and reliability, featuring a minimum of moving parts, usage of OpenSSH for transport (with other transports and pull modes as alternatives), and a language that is designed around auditability by humans – even those not familiar with the program.

We believe simplicity is relevant to all sizes of environments, so we design for busy users of all types: developers, sysadmins, release engineers, IT managers, and everyone in between. Ansible is appropriate for managing all environments, from small setups with a handful of instances to enterprise environments with many thousands of instances.

Ansible manages machines in an agent-less manner. There is never a question of how to upgrade remote daemons or the problem of not being able to manage systems because daemons are uninstalled. Because OpenSSH is one of the most peer-reviewed open source components, security exposure is greatly reduced. Ansible is decentralized – it relies on your existing OS credentials to control access to remote machines. If needed, Ansible can easily connect with Kerberos, LDAP, and other centralized authentication management systems.

This documentation covers the current released version of Ansible and also some development version features. For recent features, we note in each section the version of Ansible where the feature was added.

Ansible releases a new major release of Ansible approximately every two months. The core application evolves somewhat conservatively, valuing simplicity in language design and setup. However, the community around new modules and plugins being developed and contributed moves very quickly, adding many new modules in each release.

Ansible Lightbulb 是 Ansible 官方推荐的入门教材,普通用户大概只需要 10-20 分钟时间即可入门

The Ansible Lightbulb project is an effort to provide a content toolkit and educational reference for effectively communicating and teaching Ansible topics.

Ansible Lightbulb - https://github.com/ansible/lightbulb

Ansible Documentation 是 Ansible 官方文档,我的建议还是对英文不要害怕,多动手查多敲命令去理解

Ansible Documentation - http://docs.ansible.com/ansible/latest/index.html

基于 Ansible 的开源项目

第一个是 ansible 官方开源项目,其他都是和 ansible 相关的运维平台开源项目,推荐学习和参考

Ansible - https://github.com/ansible/ansible

Jumpserver - http://www.jumpserver.org/

OpsManage - https://github.com/welliamcao/OpsManage

adminset - https://github.com/guohongze/adminset

Ansible 项目实践

以下内容来自于《基于 ansible 的主机自动化配置管理》项目,基于 ansible 目前可以满足生产环境所有基线要求,相信对大家有一定的参考价值

ansible 部署

因为生产环境为内外网物理隔离,所有的安装部署都是离线进行的

# Install Packages
yum install gcc zlib zlib-devel openssl-devel -y

# Install Python
tar xf Python-2.7.14.tgz
cd Python-2.7.14
./configure
make
make install
cd ..

# renew python env
exit

# ImportError: No module named six.moves
tar xf six-1.11.0.tar.gz 
cd six-1.11.0
python setup.py install
cd ..

# ImportError: No module named packaging.version
tar xf packaging-17.1.tar.gz 
cd packaging-17.1
python setup.py install
cd ..

# ImportError: No module named pyparsing
tar xf pyparsing-2.2.0.tar.gz 
cd pyparsing-2.2.0
python setup.py install
cd ..

# ImportError: No module named appdirs
tar xf appdirs-1.4.3.tar.gz 
cd appdirs-1.4.3
python setup.py install
cd ..

# Install Setuptools
unzip setuptools-38.5.2.zip
cd setuptools-38.5.2
python setup.py install
cd ..

# Install pip
tar xf pip-9.0.1.tar.gz
cd pip-9.0.1
python setup.py install
cd ..

# pip 离线下载
# pip download -d DIR -r requirements.txt
pip download -d ~/ansible/ ansible

# pip 离线安装
# pip install --no-index --find-links=DIR -r requirements.txt
pip install --no-index --find-links=pip-ansible-2.3.3/ -r requirements.txt
pip install --no-index --find-links=pip-ansible-2.5.0/ -r requirements.txt -U

# pip 离线安装 pipenv
pip install --no-index --find-links=pip-pipenv/ pipenv

# 使用 pipenv 创建虚拟环境
mkdir win_ansible
cd win_ansible
pipenv shell
pip install --no-index --find-links=pip-ansible-2.5.2/ -r requirements.txt

ansible.cfg 配置解析

ansible.cfg 不影响执行结果但合理的配置会有效提升效率

# 配置文件路径(优先级)
./ansible.cfg
/etc/ansible/ansible.cfg

# 配置文件内容
[defaults]
#inventory = /etc/ansible/hosts
#log_path = /var/log/ansible.log
forks = 100 # 设置并发数
host_key_checking = False # 不检查 SSH 主机登录的密钥
display_skipped_hosts = False # 不显示已跳过的主机
retry_files_enabled = False # 不创建任务失败后的重试文件
# 按照 1d 设置 setup 缓存,优化执行效率
gathering = smart
fact_caching_timeout = 86400
fact_caching = jsonfile
fact_caching_connection = cachedir

Linux

服务端

客户端

核心用法

# 检测 ansible 是否可以正常访问主机
ansible-playbook -i hosts playbooks/ping.yml -v
# 配置好 inventory,执行以下命令创建用户并建立信任关系
ansible-playbook -i hosts playbooks/user/default.yml -v
# 配置时间同步 /进程服务 /基线文件
ansible-playbook -i hosts playbooks/baseline/cfgset.yml -v
ansible-playbook -i hosts playbooks/baseline/cfgset.yml -v --tags="repo"
ansible-playbook -i hosts playbooks/baseline/cfgset.yml -v --skip-tags="ntp,repo"
# 更新系统软件包和补丁包
ansible-playbook -i hosts playbooks/baseline/pakset.yml -v
# 修改用户密码
ansible-playbook -i hosts_changepw playbooks/user/changepw.yml -v -e "@userpass.json"
# 备份配置,支持自定义日期命名,默认为"%Y%m%d"
ansible-playbook -i hosts backup/backup.yml -v
# 恢复配置,支持按日期目录全局或者局部主机恢复
ansible-playbook -i hosts backup/restore.yml -v -e "var_backup_date=20180305"

Windows

服务端

客户端

核心用法

# 检测 ansible 是否可以正常访问主机
ansible-playbook -i hosts win_playbooks/ping.yml -v
# 配置好 inventory,执行以下命令创建用户并建立信任关系
ansible-playbook -i hosts win_playbooks/user/default.yml -v
# 配置时间同步 /进程服务 /基线文件
ansible-playbook -i hosts win_playbooks/baseline/cfgset.yml -v
ansible-playbook -i hosts win_playbooks/baseline/cfgset.yml -v --tags="wsus"
ansible-playbook -i hosts win_playbooks/baseline/cfgset.yml -v --skip-tags="ntp,wsus"
# 更新系统软件包和补丁包
ansible-playbook -i hosts win_playbooks/baseline/pakset.yml -v
# 修改用户密码
ansible-playbook -i win_hosts_changepw win_playbooks/user/changepw.yml -v -e "@userpass.json"
# 备份配置,支持自定义日期命名,默认为"%Y%m%d"
ansible-playbook -i win_hosts win_backup/backup.yml -v
# 恢复配置,支持按日期目录全局或者局部主机恢复
ansible-playbook -i win_hosts win_backup/restore.yml -v -e "var_backup_date=20180305"

结语

很抱歉我暂时不能分享全部信息,但是这并不妨碍技术上的交流,我会逐步分享有价值的可公开代码

  1. 遵循 what/why/how 思路,要理解 ansible 能解决什么问题,为什么选择 ansible,怎么使用 ansible 去解决
  2. Ansible 学习成本低但不等同于没有难度,学习路径推荐参考官方文档并积极实践,官网没有答案要善用 Google 搜索
  3. Ansible 纯后台模式只解决了部分问题,还有更多需求要通过基于 Ansible 的自动化运维平台来实现,拥抱开源技术不能固步自封
5729 次点击
所在节点    程序员
31 条回复
defunct9
2018-05-15 15:49:38 +08:00
主机岗配置基线是什么东东?
wsgzao
2018-05-15 16:00:51 +08:00
@defunct9 #1 俗称 baseline,这里包含的内容主要针对不同的操作系统结合金融行业安全标准和实际经验梳理的安全策略和标准化配置,涉及的范围从 AIX, HP-UX,RHEL 5/6/7, Windows xp/2003/7/2008/2012/10,小机估计今年全部下线使用 x86 替换,生产环境以 RHEL 为主,终端环境 Windows 较多
defunct9
2018-05-15 16:24:56 +08:00
@wsgzao 收到,估计跟 pci 标准差不多吧
wsgzao
2018-05-15 16:35:08 +08:00
@defunct9 #3 嗯,之前在银联的时候负责过 PCI DSS 和公安部信息系统安全等级保护 3 级项目,其实为了平衡安全管理和运维效率,中间还是得做不少妥协,现在大家都在鼓励运维自动化,相信很多经验和标准化模块是可以相互融合和复用的
Greenm
2018-05-15 16:38:19 +08:00
我记得 ansible 在服务器比较多的时候,大概上千台运行命令的时候速度很慢,而且可靠率也不够。

不知道这个问题现在 ansible 有改善吗
wsgzao
2018-05-15 16:58:08 +08:00
@Greenm #5 我这边还没有机会测试千台的规模(针对 2.5.2 版本),按照数百台观察执行结果均符合预期,服务端 CPU/MEM/带宽(内网千兆或万兆)压力可控,执行效率其实和很多层面相关,比如 ssh 连接方式(Windows 是 WinRM 密码交互),是否开启 gather_facts 缓存,playbook 写法等,对我们的环境来说 Ansible 最大的好处是 Agentless,如果觉得 Ansible 在性能上满足不了实际需求,考虑更换其它方案也很快的。因为我们的监控是自主研发减少了一些顾虑,所以 Ansible 作用就是专注运维标准化配置。
owenliang
2018-05-15 17:02:08 +08:00
不错,很多公司都在用 ansible 做发布系统,做一个 web ui 来交互。
defunct9
2018-05-15 17:49:28 +08:00
现在都是用 sshpass,没有 windows 机器。还成
godjob
2018-05-15 18:24:29 +08:00
@Greenm 上一千台还是使用 saltstack 吧,使用的是 MQ 消息队列,好像 ansible 也有 angent 模式也是使用 MQ 消息队列
lauix
2018-05-15 18:35:01 +08:00
自己写的 自动化运维平台,比 saltstack ansible 更适用。
kaneg
2018-05-15 19:11:30 +08:00
我们也在用 ansible 进行复杂产品的安装和配置,目前看来对人力有很大的解放
HarrisonZ
2018-05-15 19:53:22 +08:00
ansible 稍微一升级之前的 role,task 就会跑不过,python 也不能随便升级,多次遇到 python 升级某个模块 ansible 罢工,更多次遇到升级 ansible 导致老的 task 都跑不过~~唉~~~
vast0906
2018-05-15 19:53:47 +08:00
大佬,思维导图能发个原图吗?感谢
julyclyde
2018-05-15 21:23:32 +08:00
看了不少你的文章了,有几个问题
1 为啥不选已经带有较新版本 python 的操作系统,而选择在旧版本上编译呢
2 为什么不选已经打好包的新版本 python (比如 EPEL 里的),而选择编译呢
3 为啥你总是 ImportError 然后再补东西呢? pip 的自动依赖管理就被你这么给降级成手工管理了
4 你有没有觉得上述这些问题,和 ansible 的理念相悖呢?

感觉政企信息化项目的思维方式和互联网行业相比,差太远了
wsgzao
2018-05-15 22:02:45 +08:00
@HarrisonZ #12 Ansible 2.3 和之后的版本差异比较大,之前的我不是很了解,但是后面的版本一般注意语法变化,升级 python, pip, ansible 都没有太大问题,我主要是为了 Windows 的模块支持一路升上去的

@vast0906 #13 留一个加密后的邮箱地址吧,这个不算啥机密我单独发给你

@julyclyde #14
1. rhel 6/7 自带的 python 分别为 2.6.6 和 2.7.5,最新的 rhel 7.5 也是 2.7.5
2. Redhat EPEL 里没有编译好的 Python,Redhat 当然也不允许安装 CentOS 的第三包,后果自然就是拒绝技术支持
3. 我注释里写的 ImportError 是我自己手动部署遇到的所有缺失的组件包,写在这里是告诉大家为什么要先装这些
4. Python 和 Pip 的部署本身和 ansible 使用没有直接关系,但很多人包括我们公司的 RHCA 持证人也会被卡在安装这步

金融行业有自己的特殊性,流程化的东西很多,但和互联网公司相比节奏也会放慢,利弊都是双面的,不然怎么会有部分人愿意降薪来这儿呢
Rob007
2018-05-15 22:16:12 +08:00
mark 一下
jpmorn
2018-05-15 22:37:49 +08:00
Mitogen ( https://mitogen.readthedocs.io/en/latest/index.html )这个项目楼主有了解过吗。

比如升级 1000 个节点,你走 ssh 要 1000 个一个一个搞。他貌似是只要 2^10 =1024 就是一个衍生两个 ,两个生 4 个这么搞。

可惜文档不太明白。借楼问下。

@wsgzao @defunct9 @Greenm @owenliang @godjob @lauix @kaneg @HarrisonZ @vast0906 @julyclyde @Rob007
defunct9
2018-05-16 07:23:04 +08:00
好不容易从金融这个破坑里跳出来,再也不想回去了。每年的 pci 和等保以及四大的审核,对于无知人员居然要求删除系统 root 用户或者改名的要求真是忍无可忍了。
defunct9
2018-05-16 09:23:26 +08:00
@jpmorn 看了看文档,试试不就行了。之前想过用 BT 协议来分发 ,一个机房几千台机器同时装机,很是壮观啊。
julyclyde
2018-05-16 09:30:32 +08:00
@wsgzao
1https://access.redhat.com/solutions/3358 这里说 Installing unsupported packages does not necessarily make a system unsupportable by Red Hat Global Support Services 你和你的 RHCA 们,确定真的懂 Redhat 吗?

2 rhel7 里的 epel 当然不会再有 python2.7 了,因为系统已经自带了 2.7 ; 6 可以装 epel 里的 2.7
4 用自动化工具,但没用自动化工具改善工具本身,你不觉得有问题吗?

你经常发表的这些笔记,其实都是在解决其它企业风格里不存在的问题。

至于金融行业自己的特殊性,从你这个“管”中,我大概“窥”到了,你们并没用明确的利弊在指导工作,没有正确的是非观,而是要么不懂,要么 refuse to lean,把工作扣死在流程上,换句话说就是把责任推给指定流程的人

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/454982

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX