AI语音识别和人脸识别技术居然被电视台这么用？

随着AI人工智能时代的到来，广电行业如何把这门新技术利用到媒体资产管理中来，我们做了深入的探索实践。南京台媒资系统通过AI语音识别技术和人脸识别技术，提取素材的音频和视频与智能库里的关键字和图像进行对比，识别结果作为素材入库的编目信息以及出库的审核参考。极大地方便了媒资入库的管理工作，提高了媒资编目和出库审核的正确率和效率，保障了媒体发布的意识形态安全。

项目背景

AI人工智能技术的诞生，根本目的是为了取代部分人类的工作，从而达到更好的作业效果。节目审查是广电新闻节目制作播出前的一环，作为节目内容安全保障的最后一环，在整个节目制作播出中有及其重要的作用。国家近年反腐力度加大，各级落马官员甚多，仅靠人工识别敏感人物，审查难度在不断加大。

本项目的构建目的就是希望利用AI人工智能进行智能生产和管理，解决节目审查完全依靠人力对内容进行逐帧审核、工作量巨大、且有可能遗漏造成播出事故的业务痛点。

本文重点阐述的就是将AI语音识别和人脸识别技术应用于南京电视台媒体资产管理。基于与智能库关键字和图像对比，对入库音视频资料自动记录，对出库音视频资料智能审核。帮助审查人员定位敏感人物，减少漏报、错报的情况，提高审片效率，减少审片工作人员的工作量及工作压力。是AI人工智能在广电行业的新探索，对媒资资产智能化管理具有借鉴意义。

AI语音识别和人脸识别技术

在传统广电媒体资产管理中，智能技术的应用还未形成规模，尚处于起步阶段。我们的媒资系统创新性地采用了 AI智能识别技术。通过语音识别技术和人脸识别技术，提取素材的音频和视频与智能库里的关键字和图像进行对比，识别结果作为素材入库的编目信息以及出库的审核参考。

语音识别技术是对素材节目进行语音识别，自动将语音转变成文字元数据，供后续检索，方便用户使用。本项目语音识别技术可对收录内容进行语音识别提取成文字, 供检索使用。可对媒资系统里汇聚的多源化内容进行智能提取。采用模型自学习技术，适应多种地区的用户口音。支持普通话、粤语等多种语言。采用PLP/CMN/HLDA/VTLN/高斯化等特征提取和处理技术，具备高识别准确率。

人脸识别技术是针对新闻类节目中出现的人物进行识别，可应用于人物出场时间定位、敏感政治人物识别等。本系统的人脸库可以通过图片文件批量添加人脸数据，也可以通过网络搜索功能方便快捷的丰富人脸库信息，及时更新人脸库数据，保持人脸库数据的实时性，如图1所示。

图1 人脸库的配置界面

本项目人脸识别技术可自动识别视频画面中所有人脸的位置。针对视频画面中的人脸抽取特征后，用人脸特征模型进行身份的确认。在检索系统里可直接浏览所有视频人像信息，直接点击人像定位关键帧位置。提供的人脸特征库支持1000个人像库。

应用场景

电视台传统的媒资系统的入库和出库的审核都采用纯人工的方式。对于每个素材中的大量音视频的敏感信息筛查，纯人工的方式难免会有疏漏和差错，同时由于人力成本的问题导致大量内容处理存在局限。针对这一问题，我们南京台的媒资系统创新性地采用智能化的AI语音识别和人脸识别技术，集合媒体资产管理场景筛分应用，探索出了适合本台实际需求的媒资入库、出库流程。

素材入库的时候，会走正常的入库主流程，包括提交、编目、归档。同时，我们增加一个媒资入库旁路流程，来完成AI智能识别功能。语音识别和人脸识别的结果会作为编目信息自动记录到素材编目元数据中去。媒资出库的时候，审核期间，若发现存在敏感素材，可打回素材出库申请，并通知媒资管理员修改素材密级。

通过语音识别技术和人脸识别技术，自动提取资料的音频和视频与智能库里的关键字和图像进行对比。实际应用到媒资业务界面上看，素材入库后，智能识别的结果可以作为编目信息自动记录，入库内容自动标注了语音信息和关键人物信息，如图4;素材出库时，智能识别的结果罗列出来，并可以直接点击识别结果定位关键帧位置，直观的作为审核参考，如图2。

图2 基于AI智能识别的媒体资产管理业务界面