案例背景
上海市气象局是上海政府的专业管理部门,主要负责上海行政区域内的气象监测、天气预报、灾害性天气预警等工作。气象能见度是气象要素观测中的基本项目之一,是直接影响人类生活、生产、交通的重要问题。此次长江中下游流域能见度预报预警和监测平台搭建项目旨在通过大数据和机器学习技术,提高能见度预测精度,并通过可视化模块实现气象数据的价值传递。
问题与需求
作为全国最长的内陆航道,长江干线航道年货运量超20亿吨,位居全球内河第一,年客运量3.2亿人次,对沿岸经济发展至关重要,是名副其实的“黄金水道”。航道船舶的航行安全与航道的能见度高低休戚相关, 能见度预报的准确与否决定着各大宗干散货、集装箱、滚装运输在长江中下游的航运安全。
1、能见度预测精度低
在能见度预测方面,气象局之前主要使用数值预报的方法进行预测,其精度还有很大的提升空间,因此希望借助于机器学习的算法,来对误差进行修正,整体提高能见度预测精度,以便做好预警,避免恶劣天气下的人员伤亡和财产损失。预测对象为未来72h内的逐小时能见度,预测频率为每小时预报一次,数据更新频率为每天。
2、缺乏可视化呈现
为方便公众用户、决策用户和行业用户快速了解72h内的逐小时能见度,长江中下游流域能见度预报预警和监测平台的可视化功能亟待开发,在计算得出能见度预测数据后,自动形成可视化地图,以便用户快速响应做出决策。
解决方案
上海市气象局的此次项目旨在建立长江中下游流域能见度预报预警和监测平台,实现预报、产品可视化以及评估检验功能。
整体的数据架构主要分为三个层次,第一层是运行环境,包含气象局自建的应用服务器及操作系统;第二层是数据存储层,存储气象和数值预报相关的数据;第三层是业务应用层,包括预报产品的综合显示、相关预报效果的检验等。
能见度预测模型架构如下。
实施成效
气象数据质量控制
数据质量控制的流程是指对收集到的湿度、温度、气压、降水、风速、风向、地表污染物、时间及空间数据进行一体化的数据处理,将数据格式转换形成归一化的数据。之后进行自动标识,检测数据是否有效,保留有效数据,剔除无效数据。数据质量控制流程通过前期的数据清洗核查,大幅提高了进入模型的数据质量以及能见度的预测精度。
2、单个站点个性建模
由于长江流域的某些站点之间距离较远,并且所处的地理位置、气候环境、社会环境、生产环境均有非常大的差异,而这些差异难以在有限的数据中体现。因此为了降低站点之间的数据干扰,保证预测精度,分别对单个站点进行单独建模,降低不可控数据的干扰。整个系统的建模数为两百多个,模型更新频率为每天一次。
3、数值预报误差补全
气象局先前使用的预测方法为数值预报,即用大量的数据方程描述整个大气运动的动态,再用大型计算机对方程进行计算。这些方程的假设比较多,需要简化后机器才能算,如果简化太多,则方程无法完全描述大气特征,因此会在确保能够描述大气特征的前提下适当简化方程。在简化方程之后,必然会产生一些误差,需要借助机器学习的算法填补数值预报的误差缺陷,提升气象能见度预报的精度。
算法方面,使用二分类模型、XGboost和lightGBM模型进行多模型融合预测,由于每个气象站每小时都会监测到准确的气象实时数据,因此为机器学习模型不断地注入新的训练集。经机器学习的优化后的能见度预测模型,对长江中下游流域的城市,如:江苏、安徽、浙江、湖北、湖南、江西、上海等,大部分城市的能见度预测误差和相关系数都有9%~67%的显著提升。
4、能见度可视化呈现
经过机器学习算法预测的每个气象站的能见度数值,以深浅不一的颜色显示在地图上,绿色表示能见度较好,深色表示能见度较差,刷新频率为每小时。用户可选择“实时”或“预报”功能,查看实时的能见度或未来72h内的每小时能见度预报。
星环凭借大数据和机器学习技术助力气象局搭建长江中下游流域能见度预报预警和监测平台,昭示了上海市气象局向人工智能、智慧气象方向的成功转型,平台实现能见度的自动建模、参数调优和模型优化,提升预测精度,并借助可视化模块连接公众用户、决策用户和行业用户,加强了信息的互通共享,为“黄金水道”的安全航运保驾护航。