世界人工智能大会上新:百灵大模型发布最新成果蚁天鉴版上线
“具备能‘看’会‘听’、能‘说’会‘画’的原生多模态能力,可以直接理解并训练音频、视频、图、文等多模态数据。”在今年的世界人工智能大会WAIC上,作为AI的核心驱动力的大模型无疑是参展企业的参展亮点。各大科技巨头们纷纷亮出自家的最新大模型成果,并集中展示一批“人工智能 ”创新应用。
“多更模态能力让AI像人”
在今天举行“可信大模型助力产业创新发展”论坛上,蚂蚁集团公布了其自研的百灵大模型最新研发进展。记者从大会现场的演示看到,多模态技术可以让大模型更像人一样感知和互动,支撑智能体验升级,百灵的多模态能力已应用于“支付宝智能助理”上,未来还将支持支付宝上更多智能体升级。
据了解,百灵大模型多模态能力,在中文图文理解MMBench-CN评测集上达到GPT-4o水平,在信通院多模态安全能力评测达到优秀级(最高),具备支持规模化应用的能力,能支持AIGC、图文对话、视频理解、数字人等一系列下游任务。
多模态大模型技术能够使AI更好地理解人类世界的复杂信息,也让AI落地应用时更符合人类的交互习惯,在智能客服、自动驾驶、医疗诊断等多个领域展现出巨大的应用潜力。
发布现场,蚂蚁集团副总裁徐鹏展示了新升级的多模态技术可实现的更多应用场景:通过视频对话的自然形式,AI助理能为用户识别穿着打扮,给出约会的搭配建议;根据用户不同的意图,从一堆食材中搭配出不同的菜谱组合;根据用户描述的身体症状,从一批药物中,挑选出可能合适的药,并读出服用指导,供用户参考等。
基于百灵大模型多模态能力,蚂蚁已在探索规模应用落地产业的实践。论坛上同时发布的“支付宝多模态医疗大模型”,便是这一探索的实践。据了解,支付宝多模态医疗大模型添加了包含报告、影像、药品等多模态信息在内的百亿级中英文图文、千亿级医疗文本语料,以及千万级高质量医疗知识图谱,具备专业医学知识,在中文医疗LLM评测榜单promptCBLUE上,取得A榜第一,B榜第二的成绩。
“从单一的文本语义理解,到多模态能力,是人工智能技术的关键迭代,而多模态技术催生的‘看听说写画’的应用场景,将让AI的表现更真实,更接近人类,从而也能更好地服务人类。”徐鹏说。
深度伪造检测,“蚁天鉴”2.0版上线
不过“AI更像人”也会带来安全漏洞和深度生成内容滥用等新的挑战。为此,今年的人工智能大会上,蚂蚁集团还联合清华大学发布大模型安全一体化解决方案“蚁天鉴”2.0版,确保大模型技术在安全可靠的环境中发挥效能。
蚁天鉴2.0防御端新增“AI鉴真”功能。支持多模态内容真实性及深度伪造检测,可快速精准鉴别图像、视频、音频、文本内容的真伪,图像识别准确率99.9%达到行业最高优秀级(信通院测评)。目前,蚁天鉴2.0依托生成模型自建百万量级音视图多模态合成数据集,覆盖主流生成方案,有效应对AI换脸、声音模拟、证件伪造等各类深度伪造风险场景。
据了解,蚁天鉴2.0有两大特色,一是在测评端研发了业内首个“测评智能体”。该测评智能体提供全流程自动化的安全测评工具,支持各种形式模型和深度学习框架,可扩展测评垂类大模型、多模态大模型及Agent智能体,并能根据被测大模型的安全水位动态调整攻击策略和出具测试用例,保障测评效果和效率。目前,蚁天鉴2.0有超300万高质量测评题库,支持最高50万/日的饱和式攻击和逐级诱导深度攻击,并实现了1工作日内完成测评,全流程自动化率>99%。
与此同时,该智能体也增加了两项新功能。一是“大模型X-ray”。即大模型X光,可针对大模型的内在神经元进行X光扫描来做探查和判断,让研究人员了解大模型内部在发生什么、定位可能引发风险的神经元、并进行编辑修正,世界人工智能大会上新:百灵大模型发布最新成果蚁天鉴版上线从而在模型内部治理幻觉,实现从源头识别和抑制风险。
二是“大模型基础设施测评”。此前蚁天鉴的测评能力主要集中于大模型生成的内容安全、合规风险等检测。蚁天鉴2.0从攻击者全链路视角出发,深入扫描模型算法组件及软件系统,可及时准确发现大模型供应链及运行环境安全问题,保障云到端的应用安全可控。
目前,蚁天鉴的检测与防御产品已开放给20家外部机构和企业使用,为通用大模型及医疗、金融、政务等垂直领域行业大模型应用安全保驾护航。
此外,2024WAIC现场还发布了由清华大学、中关村实验室、中国信通院、蚂蚁集团联合编制的《大模型安全实践白皮书(2024)》。这也是国内首份“大模型安全实践”研究报告,为行业打造高价值参考体系。