南方网讯(记者/陈伟峰)近日,科大讯飞A.I.研究院联合中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)在声音事件定位与检测(SoundEventLocalizationandDetection,Task3)任务中摘得桂冠。
在DCASE挑战赛的Task3任务中,科大讯飞-中科大联合团队脱颖而出,在声音事件检测F-score、检测错误率、定位错误率三项指标中均取得较大优势并最终夺冠。
科大讯飞A.I.研究院联合中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)在Task3任务中夺冠(截图来源:DCASE挑战赛官方网站)
这意味着,科大讯飞在人工智能领域尤其是声音定位与检测技术上又有了长足进展,这也为实现“声学照相机”和“工业听诊器”等“A.I.+工业”的应用场景落地提供了强而有力的技术支撑。
攻克两大难关夺得冠军
DCASE挑战赛是由IEEE(InstituteofElectricalandElectronicsEngineers)举办的声音场景识别和事件检测竞赛,自年组织发起以来,至今已举办了六届,是目前声音事件领域最权威的竞赛。
本届DCASE挑战赛,共设置了六个任务,吸引了包括亚马逊、英特尔、三星、索尼等国际公司和清华大学、新加坡南洋理工大学、香港中文大学、英国萨里大学等顶级高校在内的共支队伍、个有效系统参赛。
本次科大讯飞-中科大联合团队参加的声音事件定位与检测任务(Task3)要求对一段音频内发生的声音事件进行准确的时间点检测、事件类型分类与方位角定位。
这就要求系统不仅要检测出每一帧的声音,还需要给出对应声音的空间位置。如下图,在1秒到3秒检测到钢琴声,位于水平角15°、高度角20°处。
这个任务的最大难点在于声源的位置是快速变化的,并且存在很多相似声音,比如敲门声与脚步声、警报声与手机铃声等,还伴有一定的混响与噪声。
(Task3任务中科大讯飞-中科大联合团队对声音事件的检测结果)
面对这一难题,科大讯飞和中科大联合团队拿出了两个“杀手锏”:一个是“声音事件空间位置仿真算法”,通过模拟不同空间位置的声音,训练模型,提升深度学习模型对声音空间位置的适应能力,从而让模型具备举一反三的能力;另一个是“序列区分性训练法”,通过对相似声音事件进行更精细化的建模,有效提升了易混淆声音事件的检测准确率。
比赛结果显示,联合团队在检测“有没有声音”(声音事件检测F-score)、“有什么样的声音”(检测错误率)、“声音在哪个方位”(定位错误率)这三项指标上获得优秀成绩,并最终夺冠。
“工业听诊”应用前景广阔
有了A.I.,工业界的“医生”也能随时随地为机器“望闻问切”,通过机器发出的声音辨别机器是否质量合格、是否可以正常工作。声音定位与检测技术日趋成熟,也为行业带来广阔的应用前景。
基于领先的声音事件定位和检测技术,科大讯飞已经研发出“声学照相机”和“工业听诊器”等产品,并陆续在电力、水利、轨道交通、汽车制造等行业领域发挥效用。
其中,讯飞声学照相机可以利用高精度麦克风阵列技术定位声源位置,再配合摄像头,实现可以直接在设备上看到声源位置,方便工作人员的日常设备检修。目前,讯飞声学照相机已陆续在国内多个地区、项目中进行试点和应用。
工作人员手持讯飞声学照相机对变电站绝缘子做检测,距离地面高度约10m。检测结论:图示绝缘子的检测指标在指定区间范围内,即正常运行,不存在放电等异常情况。
(讯飞声学照相机应用场景图)
此外,依托声音定位和检测技术,讯飞工业听诊系统可实现实时检测设备声音,避免设备故障导致生产中断,还可通过声音监测产品质量,避免不良品流向市场。
(讯飞工业听诊系统应用场景图)
持续深耕核心源头技术创新
年至今,科大讯飞已获得26项人工智能国际竞赛的冠军,涵盖语音识别、语音合成、机器阅读理解、手势识别、图像识别等诸多领域。在年,科大讯飞在人工智能国际赛场上也捷报频传。
1月17日,在德国The20BN-JesterDataset手势识别评测中科大讯飞以97.26%的准确率斩获冠军,并刷新世界纪录;
5月4日,科大讯飞和中科大联合团队再次夺得第六届国际多通道语音分离和识别大赛(CHiME-6)中给定说话人边界的多通道语音识别两个参赛任务上的冠军,打破自身纪录,取得三连冠。
5月21日,哈工大讯飞联合实验室与河北省讯飞人工智能研究院联合团队再次在多步推理阅读理解评测HotpotQA全维基赛道中夺冠。
未来,科大讯飞将继续坚持核心源头技术研发创新,用A.I.赋能各行各业,让机器能听会说,能理解会思考,用人工智能建设美好世界。
转载请注明地址:http://www.abmjc.com/zcmbhl/4235.html