服务|百分点基于大数据技术的全媒体中台实践

编者按
目前加快推进传统媒体向全媒体的转型迫在眉睫 , 全媒体需要从内容生产、传播形式、发布渠道等多方面进行转变提升 , 这就需要借助大数据和人工智能技术 , 实现从数字化到智能化升级 , 而支撑升级过程的关键是实现数据能力和AI能力的统一管理和协同应用 。 由此 , 近日《中国传媒科技》刊发北京百分点信息科技有限公司的论文《基于大数据技术的全媒体中台实践》 , 文章分享了百分点基于大数据和人工智能等技术建设全媒体中台的实践经验 。
一、
全媒体中台建设的必要性
未来 , 中台的建设将是企业机构信息化和智能化的发展方向 。 全球权威的技术研究和分析公司Gartner发布的《Hype Cycle for ICT in China, 2020》(2020年中国ICT技术成熟度曲线报告)中 , 将中台定义为新增技术热点 。 Gartner认为 , 数据中台是一种组织战略 , 能够有效赋能前台业务 , 从一致的视角 , 利用后台产生的数据 , 辅助决策 。 [1]而在建设中只有结合行业特点 , 打造垂直领域的中台 , 才能发挥中台的价值 。
互联网时代 , 媒体机构的竞争越来越激烈 , 新的业务场景不断涌现 , 只有以用户为中心 , 快速响应用户需求 , 不断迭代和试错 , 才能让媒体在竞争当中处于领先 。 在传统的前台-后台架构中 , 各个项目相对独立 , 许多项目都在重复建设同样的功能模块 , 既让项目本身越来越臃肿 , 同时也让开发效率越来越低 , 而中台恰恰可以很好地解决这些问题 。 同时 , 通过全媒体中台的建设 , 可以为前台应用提供媒体生产辅助、媒体运营辅助、媒体发布端应用、媒体智库等能力支撑 。 其中 , 媒体生产和媒体运营是媒体机构最重要的两个部分 , 全媒体中台可以很好地对这两部分业务进行支撑 。 媒体生产辅助应用包括新闻线索发现、媒体选题策划、智能专题库、媒体实体库和BI分析报告等生产辅助能力 。 媒体运营辅助应用包括媒体传播分析、媒体影响力分析、媒体客户端行为分析、用户全息画像和用户个性化推荐等运营辅助能力 。
二、
全媒体中台的建设方法论
中国媒体融合发展报告(2020)中指出 , 媒体融合发展不仅是传播手段的改进、传播方式的转变、传播平台的迁移 , 而且是传播生态、媒体格局、产业发展的全面升级和质变 。 [2]因此 , 如果只是基于技术角度考虑 , 而在具体的落地过程中没有相应的组织环境匹配 , 那么中台就仅仅是一个空壳 , 不会给媒体机构带来任何实际价值和效益 , 甚至还会阻碍媒体机构的发展 。 所以 , 全媒体中台必须是一个集数据采集、融合、治理、组织管理、智能分析为一体 , 将数据以服务方式提供给前台应用 , 以提升业务运行效率、持续促进业务创新为目标的整体平台 。
全媒体中台在建设的不同阶段 , 其侧重点也不同 。 通过长期实践 , 百分点总结出全媒体中台建设需要包含四大体系 , 即组织体系、管理体系、执行体系、技术体系 。 组织体系从领导层自上而下推动数据治理 , 明确人员组织和责任分工;管理体系针对数据标准、数据模型的生成、变更、维护和删除等过程进行规范的流程管理;执行体系促进所有人员遵照规范的管理流程 , 运用数据治理工具和技术手段 , 持续保障良好的数据质量;技术体系通过数据标准、数据质量、元数据管理、主数据管理等技术和工具 , 及时发现、解决及监控预防系统的数据问题 。 [3]数据智能类技术提供商一般只能做到技术体系的梳理 , 其他三个部分还需要企业机构内部来驱动完善 , 主要包括确定中台团队人选和对垂直业务线进行变更 。
三、
全媒体中台的建设路径
媒体业务系统可以分为资源后台、全媒体中台和业务前台 , 其中全媒体中台是媒体机构的核心竞争力 , 其由四部分组成 , 包括:大数据中心资产平台、大数据中心能力平台、资源发布与展示平台、资源服务共享平台 。 数据中台可定义为一个集数据采集、融合、治理、组织管理、智能分析为一体 , 将数据以服务方式提供给前台应用 , 以提升业务运行效率、持续促进业务创新为目标的整体平台 。 [4]
1. 大数据中心资产平台
大数据中心资产平台主要是为了构建媒体数据资产的管控能力 , 提供数据治理、数据管理、数据挖掘能力 , 最终构建媒体机构的数据资产 , 生成适用于媒体业务的主题库 , 辅助新闻生产、媒体运营和舆情分析等业务场景 。
平台从构建过程上 , 可划分为资源汇聚、数据处理、数据治理、数据资产、数据服务五个过程域 。
数据资源汇聚是在现有数据服务平台基础上 , 通过多种接入方式 , 将报道资源汇聚整合到统一数据库 , 建立共享常态 。 汇聚过程需要针对目前业务系统的规划实现汇聚处理 , 并对数据进行统一的存储规划 。
数据处理主要是对接入数据进行勘探和预处理 。 数据勘探的目的是了解各业务系统的数据现状、数据库表之间的关系、数据字段的业务含义 , 找到最佳的数据治理实施路径 , 建立适应媒体机构自己的数据标准并推动落地 。 数据预处理主要是进行数据的安全性检查与完整性校验 , 并进行初步数据清洗预处理 , 保证数据的可靠性 , 接入数据必须按照平台要求的数据格式进行规范统一后入库 。
数据治理是大数据中心资产平台建设过程中基础且重要的环节 , 数据治理包括三个核心要素:数据标准管理、数据质量稽核、元数据管理 。 (1)数据标准管理一般基于国标数据元与编码标准建设 , 包括数据接入标准、命名标准、数据格式标准、数据安全标准、资源管理标签等多个方面 。 (2)数据质量稽核 , 通过数据质量管理工具从数据的完整性、一致性、唯一性等多个层面实现对数据的全面稽核和预警做到事前质量检查、事中运行监控、事后归纳总结 , 结合平台提供的全方位评估能力提高数据质量 。 (3)元数据管理将数据资产用清晰直观的方式进行呈现 , 让数据资产真正被读懂、能利用 , 通过血缘分析和影响性分析 , 可以直观地了解到数据的来源、数据之间的关系、数据流向、数据被引用次数等重要信息 , 便于直观地把握数据资产状况 。
数据资产是把接入的数据基于业务现状及未来规划进行数据资产划分 , 构建符合媒体业务需求的数据仓库 。 媒体数据资产由业务库和主题库两个部分组成 , 业务库是基于业务系统构建的 , 为前台业务提供诸如专题库、语料库、实体库、知识库等业务为导向的数据资产 。 而主题库是为了应对快速建库需求 , 通过简单的检索筛选 , 形成满足业务需求的主题库 , 降低了数据开发成本 。
2. 大数据中心能力平台
大数据中心能力平台提供认知智能和业务智能两种类型的AI能力 。 其中 , 认知智能主要是基于机器学习、深度学习及迁移学习等人工智能技术 , 提供自然语言处理、图片识别、OCR识别和视频分析等基础能力 。 业务智能以认知智能为基础 , 对基础能力进行组织封装 , 对数据层面提供数据的深层次加工 , 对业务层面提供业务的深层次分析 , 业务智能包含一系列业务上通用的基础服务能力 , 包括智能推荐、用户画像、内容标注标引、专题分析、内容审校和智能专题等 。 通过大数据中心能力平台的构建 , 实现人工智能技术的系统化、中台化改造 , 提升媒体机构智能处理能力 , 有助于实现能力复用 , 降低开发成本 , 实现产品创新 。
3. 资源发布与展示平台
资源发布与展示平台是整个全媒体中台的门面 , 媒体机构 , 可以将数据和能力统一封装后集中展示 , 是服务于相关用户的共享资源统一门户 , 实现共享资源的统一呈现 , 以及资源的检索、定位和详细信息展示 , 同时提供灵活的权限管理 , 打造“一门式”服务平台 。
4. 资源服务共享子平台
当媒体机构有效整合分散异构的信息资源 , 消除“信息孤岛”桎梏 , 形成自己的数据资产和AI能力后 , 接下来就需要将这些能力对外提供服务 , 实现他们的价值 , 资源服务共享的需求也就应运而生了 。
目前企业机构资源共享主要面临三个问题 。 一是数据需求方因为数据格式不统一、数据提取效率低等而无法直接获取数据;二是数据所有方由于开发效率低、数据授权管理体系不完善、数据服务提供方式不够快捷、调用关系复杂等问题也无法高效地管理;三是数据需求方与数据所有方无法实现无缝数据互联互通 , 且提供数据服务方式单一 , 无法满足多场景共享需求 。
一个优秀的资源共享服务平台需要具备以下特性:
(1)提供统一的信息资源目录 。 需构建符合媒体行业标准的信息资源目录管理体系 , 统一资源标准 , 满足资源目录编制、审核、维护等业务的需求 。
(2)共享服务流程 。 高效支撑供需方数据共享服务 , 支持数据库、文件、API 服务的共享服务数据流管控 。
(3)数据开放服务 。 支持API创建、发布、下线、审核的全生命周期管理 。 无需懂接口代码 , 业务人员也可完成接口创建 , 省去大量开发工作量 , 提高效率 , 降低成本 。
(4)多维安全体系管控 。 支持跨网数据交换 , 可以跨网段、跨防火墙访问 , 提供相同或不同网络间的数据交换、数据服务 , 保证传输层的安全性 。 支持接口的数据加密、脱敏与压缩 , 保证数据的安全及高效传输 。
通过资源服务共享 , 对于数据应用或者服务的需求 , 通过简单可视化配置的方式就可以实现API的创建、发布、版本管理、文档管理等 , 降低日常运维成本 。
四、
总结
总结来看 , 当媒体机构具有一定的数据基础和业务规模 , 即自身数据多样、业务规模不断扩大、业务相互独立 , 就需要全媒体中台帮助其解决效率、成本和质量的问题 。 而全媒体中台的建设需要自上而下 , 需要进行详尽的前期规划设计 , 必须符合各媒体机构的实际情况 , 且不可全盘照搬 , 要结合实际情况进行取舍调整 , 才能达到价值最大化 , 驱动媒体的数智化转型 。
参考资料
[1]Kevin Ji, Roger Sheng, Milly Xiang. Hype Cycle for ICT in China, 2020[EB/OL].Gartner Research 2020.7.21.
https://www.gartner.com/en/documents/3987781
[2]温源.《中国媒体融合发展报告(2020)》发布[EB/OL].光明日报客户端.2020-09-09.
https://wap.gmdaily.cn/article/9cf70a5b3f794bd2bf8e1e23c3852b56.
[3]百分点大数据技术.数据中台组织架构调整的“最优解”[EB/OL]. InfoQ .2020-03-08 .
https://www.infoq.cn/article/7XzFlLs0XJOfNAxTOMJh/
[4]苏萌,贾喜顺,杜晓梦等 .《数据中台技术相关进展及发展趋势》[J]. 数据与计算发展前沿 ,2019, 1(05): 116-126.
注:文章首发自中国传媒科技
活动预告
中国新闻技术工作者联合会

由中国新闻技联主办的中国新闻技术工作者联合会第七届二次代表大会、2020年学术年会暨《王选新闻科学技术奖》——人才奖和优秀论文奖颁奖大会将于2020年11月19日-21日在四川省成都市召开 , 百分点将受邀参加并做主题演讲 。
时间:11月19日~21日
地点:成都
【服务|百分点基于大数据技术的全媒体中台实践】---敬请期待---

    推荐阅读