新华财经北京6月29日电 在工业和信息化部科技司的指导下,由中国工业互联网研究院牵头成立的通用人工智能与工业融合创新中心6月28日发布大模型工业知识问答测试结果,旨在助力人工智能深度赋能制造业,推动工业经济高质量发展。
(资料图)
图:6月2日,中国工业互联网研究院牵头成立通用人工智能与工业融合创新中心,以上为相关领导、专家、企业家代表出席通用人工智能与工业融合创新中心成立仪式。
参与报告论证的包括:中国工程院院士唐立新、王国栋,外籍院士焦礼成、张大庆、刘江川,ACM\IEEE Fellow 刘云浩、刘劼、张燕咏、杨铮等,共13位业界顶级专家。该报告针对包括电子设备制造、装备制造、钢铁等八个细分行业,通过设置主观、客观、自主认知和悖论等多方面问题,进行大模型测试。
图:五位中外院士、八位ACM\IEEE Fellow、13位业界顶级专家联合论证。
报告总体显示,通用大模型在工业知识问答领域整体处于探索阶段,GPT4表现最为优异。头部国产大模型表现亮眼,整体水平与GPT3.5持平,多措并举或可实现赶超。
图:大模型工业领域知识问答测评综合结果
大模型对八个细分行业的知识问答能力呈现出明显差异性,其中,电子、装备、钢铁和石化相对较好,采矿、电力、建材和纺织相对不足。
图:大模型在电子、装备、钢铁、采矿行业表现。
具体到国产大模型,文心一言、ChatGLM、360智脑在电子行业中表现优异;文心一言、360智脑、ChatGLM在装备行业评分领先;文心一言、ChatGLM、星火大模型在钢铁行业成绩突出;文心一言、360智脑、星火大模型在采矿行业名列前茅。
图: 大模型电力、石化、建材、纺织行业表现。
在电力行业,文心一言、ChatGLM、天工大模型居于前列;在石化行业文心一言、360智脑、从容大模型处于领先;在建材行业,文心一言、星火、ChatGLM评分较高;纺织行业ChatGLM、文心一言、360智脑优势明显。
图: 大模型自我知识盲区鉴别能力
图: 大模型对输入内容的合理性判断能力
报告显示,在模型自我知识盲区鉴别能力与抗污染问题分析能力方面,GPT4表现出较高的水平,能够自己主动承认不理解的问题以及识别出大部分的逻辑谬误。相较而言,国产大模型提升空间较大。
下一步,通用人工智能与工业融合创新中心将在工业与信息化部科技司的指导下,周期性围绕大模型知识能力、鲁棒性、安全性等专题开展后续评估工作,为政府提供决策依据,为产业提供赋能导向,为企业提供转型方法,为用户提供应用参考,助力构建通用人工智能赋能制造业新优势。
编辑:罗浩
声明:新华财经为新华社承建的国家金融信息平台。任何情况下,本平台所发布的信息均不构成投资建议。
标签: