随着越来越多的企业、机构甚至个人将直播纳入常态化,直播在为大众“视界”带来颠覆的同时,也产生了复杂的技术难题,其中最为突出的便是内容违规和卡顿,一个影响平台的美誉度,而另一个则严重影响用户的体验。
作为国内最大的企业级视频直播营销云,微吼平台上每天都有逾3000场直播同时发起,每天观看人数超过千万人次。截至目前,每一场直播均实现了流畅安全的顺利进行,背后的功臣,就是微吼直播自主搭建的自动化运维系统。
运维作为业务发展的后腰团队,很少为用户所关注,但却是支撑产品基础系统稳定运转的重要力量。微吼自动化运维系统主要围绕安全、部署变更、网络管理、监控管理等,利用自动化运维来提高平台的稳定性和运维人员的工作效率,为旗下各条产品线的正常服务保驾护航。
对于微吼来说,监控是整个运维乃至整个产品生命周期中最重要的一环。为此,微吼采用开源监控系统加自研来完成对微吼底层服务器基础、业务监控,事前及时预警发现故障,事后提供详实的数据用于追查定位问题,为用户提供了一个稳定可靠的直播平台。
(图示:微吼监控系统架构)
8大模块全链路监控,保障各环节稳定安全
微吼监控系统围绕“快”,“准”,“全”三个目标进行建设,目前共包含基础信息监控、服务端业务事件监控、实时直播流监控、文档转换指标监控、实时推流分布监控、直播全链路监控等8大模块。
其中,基础信息监控可以对服务器的CPU、内存、硬盘、流量、连接数等进行自动监控、告警,实时采集每台服务器的监控状态;实时直播流监控,则可对从用户开始推流到微吼流媒体分布式中心到多家商业CDN的全过程进行监控。此外,微吼流媒体核心每个服务都会实时上报实践日志,而服务端业务事件监控可以对实时上报的实践日志进行清洗和计算,供研发和一线运维使用,以便快速定位问题。
实时推流分布监控/观看卡顿监控,告别卡顿延时不稳定
如今,观众对于直播卡顿的耐受度越来越低,尤其是对商业价值更高、观众期望值更高的企业直播来说,直播过程中如果出现页面打不开、延迟高缓冲长等各种突发小状况,都会成为影响企业直播营销效果的安全“大问题”。
其中,最容易影响直播稳定性的一大原因,就是直播发起后是否正确推流。微吼直播的实时推流分布监控,可以实时展示用户推流到微吼的哪个流媒体中心机房,实时显示直播流向及每个机房的实时流数量,从而让运维人员及时发现并判断用户推流是否正确,以随时调整推流到就近机房,避免推流不正确导致的直播卡顿问题。
除此以外,直播网络条件较差、视频流参数配置问题、高清直播下对硬件解码压力过大等,都会造成直播卡顿情况。微吼直播观看卡顿监控针对这几个方面给予了针对性的应对措施,并实时监测预测网络质量,在网络抖动后快速调整编码码率,尽可能保持编码码率和网络速率吻合,以减少和消除卡顿。
智能识别+人工实时图片监控墙,违规内容鉴别“双保险”
除了保障直播的稳定性,作为企业直播领域的龙头企业,微吼也肩负着净化直播空间、提倡绿色直播的使命。
因此,在违规内容的鉴别上,微吼特别搭建了实时直播图片监控墙。它提供了智能鉴黄自动化接口,发现涉黄、暴恐、群体性事件等不良倾向内容,可以主动发送短信、邮件通知,并可自动关闭直播,甚至删除账号。同时,微吼运维特别成立了7x24小时盯屏监控团队,一旦监控到涉黄涉暴等直播,可以及时关停直播间。
问题预警与追溯,从根源上避免问题再发生
如果说,在直播过程中及时发现问题、解决问题,是微吼监控系统对故障的及时“疏导”,那么,监控系统的故障预警和可追溯,则是实现了对问题故障的前后夹击,从根源上避免了问题再发生。
微吼监控系统全面掌握了微吼所有服务基础资源和业务资源的使用情况、运行状况和健康情况,进而监测整个平台服务的可用性,故障出现并可自愈,同时监控系统会通过邮件、短信、钉钉、电话等方式及时向运维人员发送预警,提醒团队及时反应,并在问题还没完全出现时就将故障快速定位并解决掉,进而保障用户的直播顺利进行。
此外,微吼监控系统实现了直播中、直播后发生的所有问题可追溯。通过微吼故障查询系统,运维人员可以一键查询,以最快的速度定位问题排查故障,帮助用户及时“灭火”。
事实上,监控体系只是微吼自动化运维系统的一部分,作为在企业直播行业深耕最久的企业,微吼拥有着整个行业最健全的运维体系和最成熟的运维团队。以强大的运维实力和技术能力为基石,微吼为数以万计的企业提供了最稳定的直播营销云服务,助力企业利用直播这一新兴营销方式快速实现品牌提升和销量增长。