移动互联网的广泛应用不但改变了我们的生活,也正在逐渐改变我们的工作。过去,员工只能在上班时间访问企业内部 IT 系统处理业务,而现在我们可以通过手机应用随时随地处理公务。而只有确保移动应用的终端用户的访问体验,才能真正提高员工之间、合作伙伴之间的工作效率。
因此,应用开发者和企业的 IT 运维部门不应该仅仅关注服务器、存储、网络的 IT 基础设施的运行状况,而应该花更多时间去了解终端用户的应用使用体验,并让相关业务部门及时获得相应信息,建立正确的工作流程,从而保证应用服务的高可用。下面给出 10 个应用性能监控小技巧,教你如何提升你的应用体验。
技巧 1: 确定哪些应用需要优先监控
云计算和移动办公在提升企业效率的同时,也导致企业无法对员工设备进行有效监管,应用出现无序状态。再加上各种历史遗留应用、虚拟机应用、客户关系管理系统( CRM )、人力资源系统( EHR )、定制的应用、会计软件、开发票软件、人力资源软件、邮件和协同工具等等,你的员工、合作伙伴和客户所依赖的(而且你支持的)应用越来越多。
应用就像业务的引擎,要一直保持良好、顺畅运行,那么第一步就先找出那些对业务和用户至关重要应用(例如迁移到云端的 CRM 、 ERP 、 HER 等),并进行全方位监控。
技巧 2: 确定哪些重要事务需要监控
从用户需求出发,找出重度用户(例如使用软件最频繁的人、产生最多收入的人、高层管理人员等等)的常用功能。或者从商业伙伴、管理人员和股东的角度,来确定哪些应用功能比较重要。
如果是刚刚启用的一个应用,应该有现成工作流程图,为用户记录重要的事务路径和工作流程,然后不断优化流程,将常用功能的操作步骤减到最少,这是我们第二项监控的目的。
技巧 3: 主动从终端用户的视角去监控应用
移动互联网越普及,终端用户就越没有耐心,所以我们要从用户的视角出发,连续监控每一个重要事务(或工作流程),测量每个步骤的响应时间,保证达到用户服务水平协议( SLA )的要求。
据 Forrester Research 统计, 35%的用户投诉都是因为应用缓慢,我们要改变这一现状,就必须先于用户感知应用体验,利用主动监控及时发现问题,找出解决性能瓶颈、错误的方法。
技巧 4: 谨慎对待监控频率和告警策略
理论上说,重要事务的监控频率越高(例如,商品价格的展示比销售渠道的显示更重要;在线支付环节比产品评论加载更重要),越能够及早察觉性能下降的趋势,然而频繁的告警很可能就像“狼来了”的故事里那样,反而导致真有问题发生时却被忽视。
因此,对于重要事务的监控频率和告警阈值设置必须更加慎重,最好能根据场景和人员级别进行分级告警,常规的访问缓慢用邮件通知普通运维,内存、磁盘空间不足的信息要及时告知 IT 主管,而在促销活动中发生性能急剧下降的情况,不但 IT 部门要第一时间获得告警,还要及时通知业务运营部门,以提前准备应对措施。
此外,监控不是一成不变的,在系统维护期间或者某个运维人员休假期间,一定记得修改告警策略,这样才能随时掌握监控状态。
技巧 5: 针对不同区域的响应时间差异制订告警策略
随着企业规模越来越大,分支机构也会越来越多,尤其是海外办事处的建立已经成为中国企业全球化发展的必然。然而比起总部和国内的员工,那些在海外办事处工作的员工在操作应用的时候,必然会发现应用响应缓慢慢,甚至由于网络问题无法连接应用。
所以 IT 部门要针对这些分支机构进行有效的应用监控(例如在波士顿、纽约、巴黎、孟买等地设置监控点),根据地区差异制订不同于国内的响应时间告警策略,在影响员工正常工作之前发现问题,并解决问题。
技巧 6: 定制化分析报告
不同部门和工作职责对 IT 业务系统状态的报告需求不同,所以需要花时间根据不同角色定制差异化报告是非常值得的,为每个用户群组(例如每个应用、每个事务处理、每个功能等)提供含有定制信息的分析报告,并定期(例如每天、每周或每月)发送报告,保证每个人(特别是老板)都能准确了解相关信息。
技巧 7: 集中式告警平台和工作流程
从传统应用到服务端应用、 Web 应用、自定义的本地应用,再到越来越多的云端应用,很多大企业都有一个超级复杂的应用集(包含 250-500 个应用)需要维护,如果每个应用都购买、配置和维护几套监控产品,不但成本高,而且工作量也太大了。
另外,如果监控告警平台集成程度不高,导致信息孤岛的出现,造成错误报警,阻碍故障排除,就会增加系统的平均修复时间( MTTR )。所以你需要找到一个能够监控所有应用的方法,这样才能快速找到问题的根源,而云智慧监控宝能够能够通过 API 对接各种 IT 系统平台,就是一个不错的集中告警选择。
技巧 8 :让每个人都能及时了解系统状况
在这个用户满意度至上的时代,你需要不断证明、展示自己的服务质量( SLA ),所以要主动定期向用户报告 IT 系统的 SLA 。你可以提供一个只展示重点信息的概要报告,这样他们无需花大量时间去研究冗长繁杂的报告。另外,因为用户满意度是衡量 IT 成功(也是你的成功)与否的标准,所以它也可以用来衡量 IT 为公司带来了多少价值。
技巧 9 :定期进行系统状态的对比
我们总希望 IT 系统的性能越来越好,那么在不断的系统调优过程中,不但要进行调优前后的性能对比,还要和一段时间内的整体业务状况进行对比,只有这样才能准确判断系统对业务的影响,为下一步行动提供指导。例如,快速确定是否需要将重点放在性能优化上,是否需要更改云服务供应商等等。
技巧 10: 保证质量
要尽早树立注重应用产品质量的理念,虽然现在的产品迭代速度越来越快,但在所有的程序研发 /程序执行过程测试是不容忽视的(包括功能测试、回归测试、性能测试、压力测试等),这样才能保证程序质量,如果能够将测试脚本复用到产品上线之后的监控过程,并把线上数据反馈给开发和测试,不但有助于简化运维的工作流程,同时能提升开发和测试的效率和数据准确性。
总之,终端用户体验决定了对应用速度、可用性和性能状况满意是否,所以需要从用户的视角去执行、测试和监控你的应用。同时更不要忘记移动用户,智能手机不仅逐步取代电脑在我们生活和工作中的地位,而且它们完全改变了应用的体验。事实上,用户在移动设备上所花的时间已经大大超过了电脑,同时移动用户对性能和用户体验的期望也更加苛刻。因此,你需要寻找同时适合移动用户和电脑用户的监控解决方案,云智慧监控宝、透视宝和压测宝三款产品可以满足用户对移动端、 Web 端、网络、服务端全部技术栈从测试到线上产品性能监控告警和深层性能瓶颈分析发现的全部需求,而且三者在从底层架构和数据流上是完全打通的,确保应用性能监控的及时性和准确性。
编译:云智慧
作者: Jay Labadini
原文链接:
http://www.apmdigest.com/10-application-monitoring-tips
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/293693
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.