sysAK(青囊)系统运维工具集:如何实现高效自动化运维?

系统运维 SIG 已在龙蜥社区建立 SIG 组。目前 sysAK 工具集已经在龙蜥社区开源,并且在系统运维 SIG、跟踪诊断 SIG 一起共建,希望大家后期加入 SIG 一起讨论共建。本文将从技术角度分享 sysAK 系统。

一、 What is sysAK

sysAK 是我们去年才提的概念,但里面的功能来自于我们多年来在阿里百万规模的服务器运维经验。在系统运维过程中,资源监控与利用、问题排查与解决是核心诉求,因此 sysAK 覆盖系统运维的三大典型场景。

sysAK(青囊)系统运维工具集:如何实现高效自动化运维?

1、系统监控。除了常规的一些系统健康指标外,sysAK 还会针对各种系统资源提供更精细化的资源监控,帮助业务运维实现细粒度的运维调度和资源控制,进而高效运用资源。

2、系统诊断。这是对于典型的问题做分析的覆盖,比如说负载异常、网络抖动、内存泄漏、IO 毛刺、性能瓶颈、应用异常等等。

3、系统介入。这块更重要的一点是故障修复,因为我们的系统运维终极目标是减少或者避免业务损失,故障总是不可预期的会发生,发生之后我们能快速发现和分析,也需要对这个问题本身做一些修复或止血,所以 sysAK 也会提供一些系统不具备但常用的故障修复手段在里面。

覆盖比较全的场景做了可用工具集,其实还是不够的,另外一个目标是工具怎么做的好用。好用有很多因素,我认为至少要具备以下三点:

1、 对普通用户来说易懂。比如说现在的一些服务越来越多,系统越来越复杂,现在一些工具对运维来说要去了解背后的专业知识才能使用。运维工具输出结果要直达问题的核心,用户直接能看懂,不管是诊断结果或是修复建议。

2、 对运行系统来说影响少。工具本身要尽量减少对系统的扰动,sysAK 通过高性能实现来做,并通过统一的资源框架来做管理,工具可以随时随地常态化运行。这样的话,对系统问题及时发现是非常有好处的。

3、 对其他平台接口友好,便于被集成。sysAK 工具集可以做成标准化输出形式,在大型集群平台上也可以做集群化运维。

sysAK(青囊)系统运维工具集:如何实现高效自动化运维?

二、典型工具介绍

下面可根据一些分类场景的典型工具来看 sysAK 是怎么达到这些目的。

系统运维的话,Load 作为服务器运行负载的一个典型指标,经常被运维人员用于评价系统运行是否良好的一个关键因素,其计算本身是比较简单的,就只是简单恒量运行任务和 IO 等待任务的数量。对于运维人员来说,他可以方便的拿到当前是哪些进程导致 Load 高,但背后是什么导致,原因各种各样。系统错误或者硬件错误都可能会导致 Load 高,只是拿到进程情况,没有专业的操作系统知识是无法继续分析的。所以 loadtask 工具会进行全方位的系统分析,除获取进程运行栈外,还自动分析内存压力、cpu 压力、IO 压力、系统错误,并将这些因素和进程栈进行关联,跟当前进程对照,上下文结合,给出最后精确的 Load 异常原因,让运维人员直接根据这个作出决策。

sysAK(青囊)系统运维工具集:如何实现高效自动化运维?

内存泄露是内存问题的典型场景,对于内存泄露问题,通常我们的一些工具也是通过分配和释放、是否匹配的模式去识别泄露点在哪里,但这只是第一步工作。第二步工作才是最关键的,因为分配和释放不匹配其实是正常情况下也会出现,我们要对这个数据特征模式做分析,排除干扰因素,才能知道是否真的泄露了,而这块的工作花的时间是最多的,所以我们对于内核内存,通过以前的历史经验总结出来了一些模型,把数据分析的过程总结放在工具里面,我们通过这个工具可以自动快速的找到泄露点在哪个地方。

锁竞争分析工具,锁竞争是比较常见的业务效率低下或突发抖动的原因之一,通过静态分析我们可以找到锁的持有者是谁,但是一般业务抖动、长时间性能上不去,这是动态的锁的过程,ulockcheck 工具会跟踪锁的持有释放流程,对持有锁的时间时长和频率进行分析,真正判断出来到底是因为某一些任务持有过长还是业务竞争锁比较激烈,并且给出竞争场景的上下文,帮助业务开发人员精准判断出优化点在哪儿。

sysAK(青囊)系统运维工具集:如何实现高效自动化运维?

第四个是网络类问题,网络问题分析更是专业性极强的事情,通常需要抓包并分析数据报文,耗费大量时间。我们开发的 PingTrace 工具通过在内部封装自定义网络报文协议,在 server、clinent 对报文经过的全链路流程进行记录,除各个时间段进行精准时间统计外,还包括这个过程中所有的系统中断或者调度因素的影响,做综合性判断,把数据聚合出来,最后给出时延的精确原因。

sysAK(青囊)系统运维工具集:如何实现高效自动化运维?

第五个是性能瓶颈快速界定工具。业界有太多针对不同场景(从应用到硬件)的专业性能调优工具,找到性能瓶颈从程序或者系统级别去修改优化,我们接下来有一个议题也会讲性能调优工具。appscan 工具可能更侧重于运维人员,对运维人员来说,通常不会涉及到业务或系统具体怎么调优这么细致的力度,他更关注的是系统是否满足业务运行,哪一类资源是瓶颈,是否可以从运维手段上得到解决,因而除了帮助优化外,appscan 工具尽可能的从应用可能使用到资源的上去分析,帮助运维做出决策。

sysAK(青囊)系统运维工具集:如何实现高效自动化运维?

最后一个工具是ossre,这不是单独的工具,它其实是我们内部运行的自动化诊断专家系统,前端会分析数据、采集数据,后端会有大数据人工智能的方式去分析这个系统能存在的问题或者是已知问题。其前端集成到了 sysAK 中,也可单独使用,对于一些不需要后端大量数据也可分析出的已知问题给出解决方案。

sysAK(青囊)系统运维工具集:如何实现高效自动化运维?

三、开源

由于不断发展和变化的复杂业务环境,工具集也需要持续迭代,以覆盖更多的场景,因此希望通过社区合作,共同打造出这个跨平台的统一工具集,为此,工具集支持多种语言格式,c、shell、python、go 等,方便不同语言习惯的开发者进行开发,快速集成;同时针对需要采集系统内核数据的情况,也同时兼容 Linux kernel module 和 eBPF 两种技术,对内核版本不做限制。

sysAK(青囊)系统运维工具集:如何实现高效自动化运维?

目前 sysAK 工具集的代码已经在龙蜥社区进行了托管,并且在系统运维 SIG、跟踪诊断 SIG 中进行开源,希望大家后期加入 SIG 一起讨论共建。谢谢!

原文链接:https://developer.aliyun.com/article/811850?utm_content=g_1000309913

本文为阿里云原创内容,未经允许不得转载。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2024年5月19日 下午7:55
下一篇 2024年5月19日 下午8:07

相关推荐

  • 广联达项目管理系统平台

    广联达项目管理系统平台:助力企业高效管理项目 随着现代商业竞争的不断加剧,企业需要更加高效地管理项目,以确保项目按时按质完成。而广联达项目管理系统平台,则是企业管理项目的理想选择。…

    科研百科 2024年12月26日
    1
  • 科研项目管理子系统有哪些(科研项目管理子系统)

    科研项目管理子系统科研项目管理子系统 2018年7月1日,在复旦大学心理学系上,罗森塔尔·沃尔特为了研究患有阿尔茨海默病的“心理学硕士”戴维斯和克拉西特在2020年公开发表的著作《…

    科研百科 2024年9月28日
    21
  • 云南师范大学徐冲

    云南师范大学徐冲: 一个追求梦想的年轻人 云南师范大学徐冲,一个追求梦想的年轻人。他来自一个普通的家庭,但他拥有一颗积极向上的心。从小就对文学和音乐感兴趣,梦想成为一名作家和音乐家…

    科研百科 2024年11月6日
    1
  • 科研项目落实

    科研项目落实是推动科技发展的关键。只有落实科研项目,才能真正发挥其潜力,为社会带来更多的创新和进步。 然而,科研项目落实并不容易。在落实过程中,需要克服许多困难和挑战,如资金不足、…

    科研百科 2025年2月21日
    0
  • 科研项目专家评价意见

    科研项目专家评价意见 科研项目是学术界和工业界共同关注的重要领域之一。通过科研项目,人们可以推动科学技术的进步,解决现实世界中的各种问题。但是,科研项目的评价和成果的验证也是非常重…

    科研百科 2025年3月24日
    1
  • 用ppt做项目管理系统

    用PPT做项目管理系统 项目管理系统是一种用于管理和跟踪项目进展的软件。它可以帮助项目经理和团队成员更好地协作,提高项目的成功率。今天,我将介绍如何使用 PowerPoint 软件…

    科研百科 2025年1月12日
    0
  • 应用基础研究项目

    应用基础研究项目 应用基础研究项目是一种致力于解决实际应用问题的研究项目。这些研究项目通常涉及各种学科领域,包括物理学、化学、生物学、计算机科学等等。应用基础研究项目的主要目的是通…

    科研百科 2024年11月7日
    0
  • 项目管理 周期

    项目管理周期 项目管理周期是项目管理中的一个重要环节,它是项目管理过程中 sequential(顺序) 和 parallel(并发) 两种活动之间的转换点。项目管理者需要根据项目目…

    科研百科 2024年7月25日
    60
  • 《连锁干货》:运营管理体系(连锁运营管理是做什么)

    一、目的 为保证公司经营思路、策略得到贯彻,提高公司整体运行效率,促进公司经营目标顺利实现,特制订本体系文件。 二、方针 股东满意为中心、数据挖掘为方法、领导作用为前提。 三、目标…

    科研百科 2024年1月16日
    146
  • 梅州市集约化协同办公平台

    梅州市集约化协同办公平台: 让工作更高效 随着梅州市集约化协同办公平台的上线,我们的工作方式又向前迈进了一步。在这个平台上,我们可以方便地共享文件、发送信息、安排会议,以及与其他部…

    科研百科 2024年8月30日
    31