文章图片
【数据|自记纸上,也能读出标准化气象数据?】“老旧”的自记纸
怎样与气象大数据
融为一体?
自记纸
一张密布格子的长方形纸张 , 画着纤细曲折的笔迹 。 一直到20世纪90年代 , 它还是气象观测必不可少的道具 , 曾在“老资格”的基层气象人心中 , 留下不可磨灭的印记 。
/ 小小自记纸 牵动气候研究神经 /
文章图片
一张记录着1939年2月13日至14日风速和风向的达因风自记纸 。
这样小小一张纸 , 密密麻麻的曲线 , 能够记录24个小时的风向、风速变化 。
不仅仅是风速 , 气温、气压、湿度……自记纸上 , 记录着各类气象要素的点滴变化 。
文章图片
湿度自记纸
这些记录 , 远可以追溯到19世纪下半叶英国人在各个海关建立测候所 , 近则一直延续到20世纪90年代 , 记录了上百年的风风雨雨 。
对于需要长期观测资料来进行的气候研究而言 , 这些“故纸堆”中的曲线 , 毫无疑问是不折不扣的宝贵资料 。
问题来了 , 气候研究要通过模式大量运算 , 需要标准化的气象数据 , 显然无法直接读取自记纸 。 怎样才能将这些曲线 , 转化成格式标准、质量可控、适合模式使用的“数据”呢?
/ 从线条到数据 人工智能来帮忙 /
从图像到数据 , 需要的自然是图像识别技术 。 而这项技术 , 一直是人工智能的主场 , 近年来更是取得重大进步 。 在军事、刑侦、医学等多个领域 , 人工智能图像识别早已发挥巨大作用 。
从事珍贵档案数字化工作的国家气象信息中心资料室 , 自然也把目光聚焦到人工智能这一工具上 。
机器如何理解一张自记纸呢?其实原理说来也简单 。
第一步:定义网格
文章图片
这是一张达因风自记纸的局部 。 我们可以看到 , 它所记载的数据是由坐标规定的网格定义的 , 无论是上半部分的风速 , 还是下半部分的风向 , 线条上每个点所在位置都指向由纵横坐标确定的某个数值 , 并随着时间推移组成一条线 。
既然如此 , 人工智能就要先把作为背景板的网格识别出来 。
文章图片
如图所示 , 计算机将背景的网格读取出来 , 并用红线标出 , 锁定其对应的数据 。
当这一步完成后 , “捉住”这条曲线就有了依据 。 下一步 , 人工智能需要“像素级”识别出曲线的具体走向 。
第二步:识别迹线
自记纸上这条曲线 , 用专业名词叫做“迹线” 。 过去 , 观测员要用肉眼去网格一一对应 , 记录下数据 。 今天 , 人工智能可以更精确快速地完成这项工作 。
文章图片
绿线圈住的部分 , 代表人工智能识别到的迹线走过的位置 。 有了这个数据 , 结合第一步中得到的背景网格数据 , 就能重现出迹线的真实含义 。
这一步的识别并没有看上去那么简单 。 很多时候 , 自记纸上会有额外的墨迹 , 以及当年观测员的笔迹 , 都会对机器的识别产生干扰 , 往往需要人工排除 。
文章图片
识别出现误差的迹线
此外 , 在迹线的“细枝末节”处 , 机器的识别也不是尽善尽美 , 同样会出现误差 , 需要人工修正 。
第三步:计算结果
图像处理完毕 , 终于到了激动人心的时刻——计算得出数据 。
文章图片
在这一步中 , 技术人员会录入当年观测员留下的记录 , 作为对照 , 与由人工智能计算得出的数据比较 。 如果出现较大误差 , 还要去寻找原因、一一修正 。
/ 挖掘“故纸堆”要做的还有更多 /
到了这一步 , 一张自记纸 , 已经变成了一行行数据 。 但档案数字化的工作 , 还远远没有完成 。
一方面 , 人工智能可以经过训练提高水平 。 技术人员会将修正完毕的数据与图片作为人工智能的学习资料 , 进行模型训练 , 减少未来识别过程中出现错误的几率 。
另一方面 , 自记纸观测年代跨度久远 , 由于其中还包含英、俄、日等国设立的观测站录得的数据 , 标准更是各异 , 识别出的数据还要经过严格的质量检测、质量控制和评估 , 才能得以利用 。
文章图片
文章图片
技术人员搜集的不同年代的观测标准
为了控制数据质量 , 技术人员找出了许多不同年代的观测标准 , 古今中外 , 一应俱全 。 因为只有将观测数据对应到当年的观测标准 , 以及观测站的所处环境中 , 才能对数据进行均一化处理 , 形成适用于气候研究的长序列曲线 。
几年来 , 国家气象信息中心与全国各省气象部门联合 , 利用图像处理技术完成了降水自记纸的数据还原与处理 , 又利用人工智能图像识别技术识别提取了风向风速的自记纸迹线 。 目前 , 气温、气压、湿度自记纸也完成了扫描 , 十四五期间将进一步处理 。
2019年 , EL型风向速自记纸数据提取软件已经业务应用 。 今年4月 , 各类自记纸中最复杂、最难识别的达因风向风速自记纸的数据提取软件 , 也已通过验收并向全国推广应用 。
不远的将来 , 这些从“故纸堆”中拯救出来的数据 , 或许将成为应对气候变化研究重要的助力 。
文章图片
推荐阅读
- 区块|面向2030:影响数据存储产业的十大应用(下):新兴应用
- 选型|数据架构选型必读:2021上半年数据库产品技术解析
- 殊荣|蝉联殊荣!数梦工场荣获DAMA2021数据治理三项大奖
- 数据|数智安防时代 东芝硬盘助力智慧安防新赛道
- 平台|数梦工场助力北京市中小企业公共服务平台用数据驱动业务创新
- 数据|中标 | 数梦工场以数字新动能助力科技优鄂
- 建设|数据赋能业务,数梦工场助力湖北省智慧应急“十四五”开局
- 市民|大数据、人工智能带来城市新变化 科技赋能深化文明成效
- 趋势|[转]从“智能湖仓”升级看数据平台架构未来方向
- 数据|天问一号火星离子与中性粒子分析仪首个成果面世