运维工作职责及工作流程?

运维工作职责及工作流程?

答:运维工作职责及工作流程:1、能正确调度主变压器启、停和负荷分配,组织运行人员进行监视、维护、故障处理等工作;2、具备110变配电系统大型倒闸操作能力,组织进行110变电站设备的运行和定期轮换工作;3、合理组织当值期间设备操作,组织、指挥当值期间现场事故处理,设备消缺,根据电网和生产管理的要求合理安排运行方式; 4、熟悉继电保护装置,并能熟练处理继电保护相关问题,能利用继电保护报文信息分析故障原因; 5、熟知110变配电系统二次原理,能熟练处理二次故障;

一、岗位职责1.构建运维流程管理体系,负责流程、标准及对应的落地效果的监控及持续完善;2.根据公司业务的调整及运维模式的变化,梳理运维已有流程和组织优化管理流程,使其科学化、效率化;3.负责运维跨部门流程协调及优化,推动标准化流程的实施运作,并协调和组织解决流程执行重点问题;4.负责运维流程管理体系文件的审核、发布和管理,并为各部门提供流程管理培训;5.负责研究运维管理领域前沿技术和理念,并输出对应的落地执行方案,在公司内推广应用。

1.运维是指大型组织已经建立好的网络软硬件的维护,就是要保证业务的上线与运作的正常。2.在他运转的过程中,对他进行维护,他集合了网络、系统、数据库、开发、安全、监控、应用架构、存储 于一身的技术。3.运维又包括很多种,有DBA运维、网站运维、虚拟化运维、监控运维、游戏运维等等。运维分类:1)运维开发:是给应用运维开发运维工具和运维平台的2)应用运维:是给业务上线、维护和做故障排除的,用开发运维开发出来的工具给业务上线、维护、做故障排查3)系统运维:是给应用运维提供业务上的基础设施,比如:系统、网络、监控、硬件等等2、运维的职责1. 保证服务的稳定运行;2.考虑服务的可扩展性;3.从系统的稳定性和可运维性的角度,提出开发需求;4.定位系统的问题,甚至可以直接修正bug;5.对突然出现的问题做到快速响应和处理;3、基础运维常见工作内容1.服务监控技术:包括监控平台的研发、应用,服务监控准确性、实时性、全面性的保障2.服务故障管理:包括服务的故障预案设计,预案的自动化执行,故障的总结并反馈到产品/系统的设计层面进行优化以提高产品的稳定性3.服务容量管理:测量服务的容量,规划服务的机房建设,扩容、迁移等工作4.服务性能优化:从各个方向,包括网络优化、操作系统优化、应用优化、客户端优化等,提高服务的性能和响应速度,改善用户体验5.服务全局流量调度:接入服务的流量,根据容量和服务状态在各个机房间分配流量6.服务安全保障:包括服务的访问安全、防攻击、权限控制等7.服务自动发布部署:部署平台/工具的研发,及平台/工具的使用,做到安全、高效的发布服务8.服务集群管理:包括服务的服务器管理、大规模集群管理等9.服务成本优化:尽可能降低服务运行使用的资源,降低服务运行成本10.数据库管理(DBA):通过设计、开发和管理高性能数据库集群,使数据库服务更稳定、更高效、更易于管理。11.平台化的开发:类docker等平台的开发管理,及服务接入技术1.2 以devops交付环熟悉运维工作1、什么是devops交付环1.我们把开发交付划分为:计划 -->编码-->构建-->测试-->版本-->部署-->运维-->监控的一个闭环2.DevOps的目标是通过建立并不断完善持续交付的流水线3.运维的职责覆盖了产品从设计到发布、运行维护、变更升级及至下线的生命周期2、产品发布前 注:这个阶段运维工程师的职责是参与设计并把有关运维准入,主要包括1.产品的业务熟悉;2.产品架构设计的合理性评估,包括是否存在单点,是否可容错,是否有强耦合等,3.同时需要提供产品设计的合理性建议以使产品能够满足上线发布并稳定运行的基本要求;4. 资源评估,包括所需的服务器资源、网络资源以及资源的分布等,同时把相关产品对资源预算申请的合理性,控制服务成本;5.资源就位,将申请的服务器及基础环境/域名准备就位。3、产品发布1.产品发布阶段运维工程师负责发布的具体工作,将具体的软件和系统/硬件资源整合形成产品并对外提供服务。2.对于已在线服务的更新也属于发布范畴,这个时候的产品发布一般要保障在线发布,在不中断对外服务的情况下完成产品的升级。3.对于大型复杂的变更也存在中止服务部署完成后再重新提供服务的情况,但这种情况需要运维工程师通过尽可能的技术手段来避免。4、产品运行维护1)监控:1.对服务运行的状态进行实时的监控,随时发现服务的运行异常和资源消耗情况;2.输出重要的日常服务运行报表以评估服务/业务整体运行状况,发现服务隐患;2)故障处理:1.对服务出现的任何异常进行及时处理,尽可能避免问题的扩大化甚至中止服务。2.这之前运维工程师需要针对各类服务异常,如机房/网络故障、程序bug等问题制定处理的预案,问题出现时可以自动或手动执行预案达到止损的目的。3.除了日常小故障外,运维工程师还需要考虑产品不同程度受损情况下的灾难恢复,包括诸如地震等不可抗力导致大规模机房故障、在线产品被删除等对产品造成致命伤害的情况。3)容量管理:1.包括服务规模扩张后的资源评估、扩容、机房迁移、流量调度等规划和具体实施。5、产品性能/成本优化1.产品对外提供服务最重要的一点是用户体验,用户体验中非常重要的是产品的可用性和响应速度。2.而如何用最合理的资源(如机器、带宽等)支持产品提供高可用和高速度的用户体验,这也是运维工程师的重要职责。6、产品下线1.发展良好的互联网产品将始终在线对外提供服务,但互联网产品快速迭代,也存在相当多孵化的产品最后被淘汰的情况2.这些产品都需要做下线处理,这个过程运维工程师主要做好资源回收的工作,将机器/网络等资源回收后纳入资源池中供其它服务使用1.3 Linux运维工作发展过程运维发展过程1、手工管理阶段1)业务规模1.业务流量不大,服务器数量相对较少,系统复杂度不高。2.对于日常的业务管理操作,大家更多的是逐台登录服务器进行手工操作,属于各自为战。3.每个人都有自己的操作方式,缺少必要的操作标准、流程机制,比如业务目录环境都是各式各样的。2)工作职责1.早期的运维团队在人员较少的情况下,主要是进行数据中心建设、基础网络建设、服务器采购和服务器安装交付工作。2.几乎很少涉及线上服务的变更、监控、管理等工作。3.这个时候的运维团队更多的属于基础建设的角色,提供一个简单、可用的网络环境和系统环境即可。2、工具批量操作阶段1)业务规模1.随着服务器规模、系统复杂度的增加,全人工的操作方式已经不能满足业务的快速发展需要。2.因此,运维人员逐渐开始使用批量化的操作工具,针对不同操作类型出现了不同的脚本程序。3.此时,虽然效率提升了一部分,但很快又遇到了瓶颈,操作的质量并没有太多的提升。4.我们开始建立大量的流程规范,比如复查机制,先上线一台服务器观察10分钟后再继续后面的操作,一次升级完成后至少要观察20分钟等。5. 这些主要还是靠人来监督和执行,但在实际过程中执行往往不到位,反而降低了工作效率。2)工作职责1.这个时候的运维团队还会承担一些服务器监控的工作,同时会负责LVS、Nginx等与业务逻辑无关的4/7层运维工作。2.这个时候服务变更更多的是逐台的手工操作,或者有一些简单批量脚本的出现。3.监控的焦点更多的在服务器状态和资源使用情况上,对服务应用状态的监控几乎很少,监控更多的使用各种开源系统如Nagios、Cacti、openfalcon、等。3、平台管理阶段1)业务规模1.在这个阶段,我们决定开始建设运维平台,通过平台承载标准、流程,进而解放人力和提高质量。2.这个时候对服务的变更动作进行了抽象,形成了操作方法、服务目录环境、服务运行方式等统一的标准。3.通过平台来约束操作流程,如上面提到的上线一台服务器观察10分钟,程序的启停接口必须包括启动、停止、重载等。4.在平台中强制设定暂停检查点,在第一台服务器操作完成后,需要运维人员填写相应的检查项,然后才可以继续执行后续的部署动作。2)工作职责1.由于业务规模和复杂度的持续增加,运维团队会逐渐划分为应用运维和系统运维两大块。2.应用运维开始接手线上业务,逐步开展服务监控梳理、数据备份以及服务变更的工作。3.随着对服务的深入,应用运维工程师有能力开始对服务进行一些简单的优化。4.同时,为了应对每天大量的服务变更,我们也开始编写各类运维工具,针对某些特定的服务能够很方便的批量变更。5.随着业务规模的增大,基础设施由于容量规划不足或抵御风险能力较弱导致的故障也越来越多, 迫使运维人员开始将更多的精力投入到多数据中心容灾、预案管理的方向上。4、系统自调度阶段1)工作环境1.更大规模的服务数量、更复杂的服务关联关系、各个运维平台的林立,原有的将批量操作转化成平台操作的方式已经不再适合。2.需要对服务变更进行更高一层的抽象,将每一台服务器抽象成一个容器,由调度系统根据资源使用情况,将服务调度、部署到合适的服务器上。3.自动化完成与周边各个运维系统的联动,比如监控系统、日志系统、备份系统等。4.通过自调度系统,根据服务运行情况动态伸缩容量,能够自动化处理常见的服务故障。5.运维人员的工作也会前置到产品设计阶段,协助研发人员改造服务使其可以接入到自调度系统中。2)工作职责1.业务规模达到一定程度后,开源的监控系统在性能和功能方面,已经无法满足业务需求;2.大量的服务变更、复杂的服务关系,以前靠人工记录、工具变更的方式不管在效率还是准确性方面也都无法满足业务需求;3.在安全方面也出现了各种大大小小的事件,迫使我们投入更多的精力在安全防御上。4.逐渐的,运维团队形成之前提到的5个大的工作分类,每个分类都需要有专精的人才。5.这个时候系统运维更专注于基础设施的建设和运维,提供稳定、高效的网络环境,交付服务器等资源给应用运维工程师。6.应用运维更专注于服务运行状态和效率,数据库运维属于应用运维工作的细化,更专注于数据库领域的自动化、性能优化和安全防御。7.运维研发和运维安全提供各类平台、工具,进一步提升运维工程师的工作效率,使业务服务运行得更加稳定、高效和安全。1.4 Linux运维工作分类1、系统运维(SYS):1.负责IDC、网络、CDN和基础服务的建设(LVS、NTP、DNS);2.负责资产管理,服务器选型、交付和维修,网络建设、LVS负载均衡和SNAT建设系统运维详细工作职责2、应用运维(SRE):1. 应用运维负责线上服务的变更、服务状态监控、服务容灾和数据备份等工作,对服务进行例行排查、故障应急处理等工作2. 工作职责如下:设计评审、服务管理、资源管理、例行检查、预案管理、数据备份。3.业务运维工作细则1)监控线上的服务质量 2)响应异常/处理突发故障 3)在线发布/升级产品 4)和相应产品线的研发和测试协调处理产品问题应用运维详细工作职责3、运维开发1.是给应用运维开发运维工具和运维平台的2. 主要包含的平台:工单系统、CMDB、监控系统、ELK日志系统、CI/CD、LDAP、FAQ、培训系统、OpenStack平台4、数据库运维(DBA):1.数据库运维负责数据存储方案设计、数据库表设计、索引设计和SQL优化,2.对数据库进行变更、监控、备份、高可用设计等工作,详细的工作内容如下3.设计评审、容量规划、数据备份与灾备、数据库监控、数据库安全、数据库高可用和性能优化4.自动化系统建设、运维研发、运维平台、监控系统、自动化部署系统5、运维安全(SEC):1.运维安全负责网络、系统和业务等方面的安全加固工作2.进行常规的安全扫描、渗透测试,进行安全工具和系统研发以及安全事件应急处理3.工作内容如下:安全制度建立、安全培训、风险评估、安全建设、安全合规、应急响应。1.4 Linux运维日常使用软件和技能1、运维工程师使用的运维平台和工具1.Web服务器:apache、tomcat、nginx2.监控:prometheus、zabbix、openfalcon、nagios、cacti3.自动部署:ansible、saltstack、sshpt4.配置管理:puppet、cfengine5.负载均衡:keepalive、lvs、haproxy、nginx6.备份工具:rsync、wget7.分布式数据库:hbase、redis、MongoDB8.容器:docker、k8s、docker-compose、swarm9.安全:kerberos、selinux、acl、iptables10.虚拟化:openstack、xen、kvm11.问题追查:netstat、top、tcpdump、last2、运维工程师要掌握的技能1.扎实的计算机基础知识,包括计算机系统架构,操作系统,网络技术等;2.通用应用方面需要了解操作系统、网络、安全,存储,CDN,DB等,知道其相关原理;3.编程能力,小到运维工具的开发大到大型运维系统/平台的开发都需要有良好的编程能力;4.数据分析能力:能够整理、分析系统运行的各项数据,从中发现问题及找到解决方向;5.丰富的系统知识,包括系统工具、典型系统架构、常见的平台选型等;3、运维工程师的软素质要求(简历中自我评价可以参考)1.时间管理能力,特别是碎片化时间的处理能力;2.沉稳的心态,面对紧急情况时需要处变不惊;3.沟通能力、团队协作,运维工作跨部门、跨工种工作很多,需善于沟通、并且团队协作能力要强;4.工作中需胆大心细:胆大才能创新、不走寻常路,特别对于运维这种新的工种,更需创新才能促进发展;5.心细,运维工程师是最高线上权限者,需要谨慎心细;6.主动性、执行力,能够主动学习国际国内的运维技术,并引入到工作中,提高运维的质量和效率;