新闻

《中国科学基金》 | 专题:ChatGPT与AI科技应用

新闻 2026-05-05 1 次浏览

《中国科学基金》2023年第37卷第5期封面


卷首语

大模型技术:变革、挑战与机遇

戴琼海

清华大学 信息科学技术学院

作者简介

戴琼海清华大学教授,中国工程院院士,清华大学信息学院院长,北京信息科学与技术国家研究中心主任,中国人工智能学会理事长。主要学术方向为人工智能、成像与智能技术、脑与认知科学。主持承担了国家自然科学基金认知计算科学中心项目和国家重大科研仪器研制项目等。目前开展的研究包括认知智能、智能光电计算和元宇宙等。


近年来,随着预训练技术的发展和计算硬件性能的提升,人工智能取得了突破性进展。2022年底,人工智能大模型ChatGPT问世,将自然语言的理解与生成能力提升到新的高度,并具备了跨学科、多场景、多用途的通用性,引起了产业界和学术界的广泛关注。以ChatGPT为代表的大模型技术实现了人工智能技术从“量变”到“质变”的跨越,有望发展成为人工智能关键基础设施,发挥“头雁”效应赋能千行百业,加速推进国民经济和社会的高质量发展。

为更好推动大模型技术创新和应用生态的发展,国家自然科学基金委员会信息科学部、《中国科学基金》编辑部与中国人工智能学会共同组织了“ChatGPT与人工智能技术应用”的专题研讨,围绕“以ChatGPT为代表的大型语言模型研究进展”“从ChatGPT到多模态大模型:现状与未来”等10个主题,形成了详尽的当前形势分析和未来趋势研判,从技术、应用、生态等多个角度阐述了大模型技术引发的新一轮人工智能变革,并指出大模型技术可能带来的风险和挑战,并给出了我国大模型发展的一些启示与展望。

以ChatGPT为代表的大模型技术反映了通用人工智能的一个重要发展思路,对人工智能发展的推进,以及对社会经济的重大推动作用毋庸置疑。一方面,大模型技术正在逐步落地应用,在互联网、金融、医疗等领域体现出了显著优势,在其他行业的广泛应用也正在逐步实现;另一方面,大模型技术也对科学研究的方法与范式带来的变革,通过“一专多能”的能力以及丰富的生成功能,可以为科学规律的总结、未知知识的探索等方面带来新的机遇,为生命科学、医学、药学、材料、化学等领域的研究提供有力工具。

但我们也需要看到:大模型技术仍基于现有深度神经网络,目前依然存在可解释性不足、能效比不高、缺乏决策能力等重要性能瓶颈;重度依赖超大规模数据资源,在典型开放环境下,其可靠性仍存在重要缺陷,尤其在样本极少、先验知识缺乏、环境动态变化、强对抗干扰等极端条件下,现有大模型技术的应用能力受到很大限制;同时,大模型的“幻觉”等效应机理和解决方案仍然有待探索。

面向动态、干扰和无先验的复杂环境感知、理解和决策,要想实现更强的通用性、鲁棒性和泛化性,人工智能技术必须在几个方面实现升级跨越:从单纯的机器学习模型到结构性可解释模型,从离线学习到连续自主学习,从记忆式学习到联想猜测。新的生成式人工智能需要着力推动人工智能与脑科学、认知科学的交叉创新研究,力争在可解释性、高安全性和低功耗性等方面形成重要突破。

大模型技术的发展,对于我们既有挑战、也有机遇。应当在大模型的浪潮中,保持定力,夯实人工智能基础理论研究、加强关键技术攻关、并进一步鼓励大模型相关的产业应用,让我国能引领未来人工智能发展前沿,助力我国国民经济和社会的高质量发展。

请识别上方二维码下载PDF原文




以ChatGPT为代表的大型语言模型研究进展

柯 沛1 雷文强2 黄民烈1*

1. 清华大学 计算机科学与技术系

2. 四川大学 计算机学院

作者简介

黄民烈清华大学长聘教授,国家杰出青年科学基金获得者,中国中文信息学会自然语言生成与智能写作专业委员会副主任,CCF学术工作委员会秘书长。主要研究领域为大规模语言模型、对话系统、语言生成等。曾获得中国人工智能学会吴文俊人工智能科技进步奖一等奖(第一完成人)、中国中文信息学会汉王青年创新奖等。在国际顶级会议和期刊上发表论文150多篇,多次获得国际主流会议的最佳论文或提名奖。

柯沛 助理研究员,清华大学计算机科学与技术系博士后,中国中文信息学会自然语言生成与智能写作专委会的委员。研究方向为自然语言生成和对话系统。在Annual Meeting of the Association for Computational LinguisticsConference on Empirical Methods in Natural Language Processing等国际顶级学术会议上共发表论文10余篇,曾获NLPCC 2020最佳学生论文奖。

摘 要


大型语言模型是当今人工智能领域最前沿的研究方向之一,该方向旨在训练含有大规模参数的通用语言模型,使其能够遵循人类指令完成不同类型的自然语言处理任务。作为大型语言模型的代表,由OpenAI研发的ChatGPT在各个领域均展现出强大的自然语言生成能力,受到了全球各行各业的关注。本文从语言模型的发展历程出发,介绍了近年研究者在扩大语言模型规模上的探索,然后分析了大型语言模型带来的范式改变,并以ChatGPT为典型实例概述了其发展、技术和应用,接着介绍了后ChatGPT时代大型语言模型的前沿进展,最后从评价和治理两方面总结了目前大型语言模型的局限性及未来需要解决的挑战。

请识别上方二维码下载PDF原文




从ChatGPT到多模态大模型:现状与未来

李 耕1,2 王梓烁1,2 何相腾1,2 彭宇新1,2*

1. 北京大学 王选计算机研究所

2. 北京大学 多媒体信息处理全国重点实验室

作者简介

彭宇新北京大学二级教授、博雅特聘教授,研究跨媒体分析、计算机视觉、人工智能。国家杰出青年科学基金获得者、863项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院“人工智能2.0”规划专家委员会专家、中国电子学会会士、中国人工智能学会会士、中国图象图形学学会会士、副秘书长。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步奖一等奖。发表论文200多篇,包括ACM/IEEE汇刊和CCF A类论文100多篇。担任IEEE Transactions on MultimediaIEEE Transactions on Circuits and Systems for Video Technology等期刊编委。

李耕北京大学在读博士生,主要研究方向为跨媒体分析、计算机视觉。


摘 要


2022年底,OpenAI发布的ChatGPT聊天机器人将人工智能对通用自然语言任务的理解与生成能力提升到新的高度,引发各界广泛关注。当前ChatGPT仅支持文本模态的交互,而真实世界的感知则依赖于图像、文本、视频、音频等多个模态的协同处理。如何借鉴人脑的跨模态处理特性,跨越视觉、语言、听觉等不同感官信息实现对真实世界的感知和认知,是提升模型通用感知和交互能力、实现通用人工智能的关键。本文从ChatGPT的核心技术出发,分析ChatGPT在文本单模态限制下所面临的问题,并介绍ChatGPT与多模态分析技术结合的部分代表性工作,最后从多模态预训练、数据—知识双轮驱动等角度对ChatGPT多模态化的未来研究方向进行展望。

请识别上方二维码下载PDF原文




ChatGPT 能力分析与未来展望

武俊宏1 赵 阳2† 宗成庆2*

1. 中国科学院大学 人工智能学院

2. 中国科学院 自动化研究所

作者简介

宗成庆中国科学院自动化所研究员,博士生导师,IEEE Fellow、ACL Fellow、AAIA Fellow、CAAI Fellow以及CCF Fellow。主要从事自然语言处理、机器翻译和语言认知计算等研究,发表学术论文200余篇,出版专著3部、译著2部。目前担任中国中文信息学会副理事长、国际计算语言学学会(ACL)候任副主席。曾获国家科技进步奖二等奖、北京市科学技术奖一等奖等奖项。荣获北京市优秀教师、中国科学院优秀导师和李佩教学名师等荣誉。

武俊宏中国科学院大学人工智能学院博士研究生。主要研究方向为自然语言处理、机器翻译和终身学习等。



赵阳博士,中国科学院自动化研究所副研究员。主要研究方向为自然语言处理、机器翻译和文本数据挖掘等。作为项目负责人和技术骨干承担多个国家自然科学基金项目、国家重点研发计划项目和特定领域的应用项目。在领域著名期刊和会议上发表论文30余篇,出版译著1部。目前担任国际学术期刊ACM Transactions on Asian and Low Resource Language Information Processing副主编。

摘 要


近年来,大语言模型的自然语言处理能力不断提升,尤其近期,聊天生成式预训练模型(ChatGPT)所掌握的“渊博知识”和表现出来的强大对话能力成为举世瞩目的热点话题。ChatGPT语言理解能力的真实水平如何?与专用模型相比,其性能表现谁居上风?它是否能够成为整个自然语言处理领域的通用模型而取代其它模型,甚至使所有自然语言处理问题得到彻底解决呢?为了回答上述问题,本文对ChatGPT在多个自然语言处理任务上的性能表现进行了评估和分析。在此基础上,我们讨论了ChatGPT对自然语言处理领域的影响,并对未来的发展进行了展望。

请识别上方二维码下载PDF原文




ChatGPT及生成式人工智能现状及未来发展方向

张 熙 杨小汕 徐常胜*

中国科学院 自动化研究所

作者简介

徐常胜中国科学院自动化研究所多模态人工智能系统全国重点实验室研究员,国家杰出青年科学基金获得者。研究领域包括多媒体分析,计算机视觉,模式识别,图像处理等。

张熙中国科学院自动化研究所多模态人工智能系统全国重点实验室在读博士生。研究领域包括多模态学习与理解,视觉问答等。


摘 要


生成式人工智能是一种能够自主生成内容的人工智能技术,可以应用于文本生成、图像生成等多个领域。近年来,随着预训练技术的发展和计算硬件的提升,生成式人工智能取得了突破性进展,特别是以ChatGPT为代表的生成式对话模型,取得了令人惊艳的效果,开始广泛应用于各行各业。生成式人工智能有广阔的发展前景,本文首先介绍了ChatGPT的研究进展,包括预训练语言模型、上下文学习和基于人类反馈的强化学习三个关键技术,以及ChatGPT对相关人工智能研究的影响。然后对ChatGPT及生成式人工智能在未来的应用发展进行了思考与总结,讨论了目前亟需解决的关键问题,包括更透彻的理解能力、模型轻量化、可控安全的内容生成、知识可持续学习、类脑化认知和可解释性等;希望通过本文的介绍能引起更多的研究人员关注生成式人工智能,进一步推动生成式人工智能的发展与应用。

请识别上方二维码下载PDF原文




ChatGPT技术解析及通用人工智能发展展望

张伟男 刘 挺*

哈尔滨工业大学 计算学部

作者简介

刘挺哈尔滨工业大学长聘教授,现任哈尔滨工业大学副校长、党委常委,黑龙江省政协教科卫体委员会副主任。中国计算机学会会士、中国中文信息学会副理事长、黑龙江省计算机学会理事长,黑龙江省中文信息处理重点实验室主任,黑龙江省“人工智能”头雁团队带头人。主要研究方向为人工智能、自然语言处理、社会计算、智能教育和智慧医疗等。曾获国家科技进步奖二等奖、黑龙江省科技进步奖一等奖、黑龙江省科技进步奖二等奖、钱伟长中文信息处理科学技术奖一等奖、吴文俊人工智能科技进步奖二等奖等奖项。担任科技创新2030“新一代人工智能”重大项目“人机融合会诊”首席科学家。

张伟男哈尔滨工业大学教授,博士生导师,黑龙江省中文信息处理重点实验室副主任,中国中文信息学会青年工作委员会副主任,中国计算机学会(CCF)术语审定工作委员会执行委员、CCF哈尔滨分部秘书长,中国人工智能学会教育工作委员会副秘书长。主要研究方向为大模型、自然语言处理、人机对话和社交机器人等。在国际顶级会议和期刊发表论文60余篇,多次担任自然语言处理领域国际顶级会议的领域主席。曾获黑龙江省科技进步奖一等奖、吴文俊人工智能科技进步奖二等奖及黑龙江省青年科技奖等奖项。主持国家重点研发计划项目等项目。

摘 要


ChatGPT在全世界范围内掀起了人工智能的科技巨浪。本文根据OpenAI官方公布的信息和已有相关研究工作中涉及的技术,对ChatGPT进行了技术解析,并简述了随着大模型的发展而出现的一系列新技术。进一步,本文论述了开源社区对于大模型技术发展的重要贡献和后续潜力。最后,本文展望以大模型为技术里程碑的通用人工智能发展的未来研究方向。

请识别上方二维码下载PDF原文




大模型关键技术与未来发展方向

——从ChatGPT谈起

刘学博 户保田 陈科海 张 民*

哈尔滨工业大学(深圳) 计算与智能研究院

作者简介

张民哈尔滨工业大学(深圳)特聘校长助理,计算与智能研究院院长。“国家百千万人才工程”入选者,国家杰出青年科学基金获得者,“鹏城孔雀计划”特聘A岗位,享受国务院政府特殊津贴。主要研究方向为自然语言处理、人工智能、大模型。获省部级科技进步奖3项,最佳会议论文4次。发表CCF A/B类会议和期刊论文200余篇,出版Springer专著2部,主编论著(论文集)16本。担任本领域10本期刊编委。主持科技部重点研发计划课题及多项大型产业界项目。

刘学博哈尔滨工业大学(深圳)计算与智能研究院助理教授,“鹏城孔雀计划”特聘C岗位。主要研究方向为自然语言处理、机器翻译、大模型能力评估与优化。获澳门技术发明奖二等奖、澳门研究生科技研发奖、中国中文信息学会优博提名奖等奖项。在自然语言处理与人工智能顶级会议与期刊上发表论文30余篇。主持国家自然科学基金青年科学基金项目等。

摘 要


大规模预训练模型,也被称为“基座模型”或“大模型”,目前被认为是通用人工智能技术的核心引擎,已经成为了全球科技竞争焦点。本文归纳总结了以聊天生成预训练转换器(Chat Generative Pre-trained Transformer, ChatGPT)为代表的生成式大模型技术研究现状和发展趋势,从大模型基座、大模型人类偏好对齐、大模型推理与评价、多模态大模型、大模型安全可控五个方面讨论了当前大模型研究的现状和挑战,并结合我国人工智能研究特点,简要分析了大模型未来的重点发展方向。

请识别上方二维码下载PDF原文




语言大模型的演进与启示

陶建华1* 聂 帅2 车飞虎1

1. 清华大学 自动化系

2. 启元实验室

作者简介

陶建华清华大学自动化系教授,中国科学院大学人工智能学院教授,中国计算机学会会士,国家杰出青年科学基金获得者。在国内外学术期刊和会议上发表论文400余篇,担任国际主要期刊IEEE Transactions on Affective Computing指导委员会委员,Speech Communication责任编辑,Interspeech 2020Affective Computing Intelligent InteractionIEEE International Workshop on Machine Learning for Signal Processing、中文口语语言处理国际会议等语音领域重要国际会议程序委员会主席等。研究方向包括语音识别与合成、人机交互、情感计算、多媒体信息处理。

摘 要


2022年11月,OpenAI推出对话人工智能大模型ChatGPT,展现了令人惊艳的自然语言理解和生成能力,并具备了跨学科、多场景、多用途的通用性,在很多任务上的性能达到了人类专家的水平,引起了产业界和学术界的广泛关注。以ChatGPT为代表的大模型技术实现了人工智能技术从“量变”到“质变”的跨越,有望发展成为人工智能关键基础设施赋能百业,加速推进国民经济的高质量发展。本文首先回顾了大模型技术的演进历程,从技术、应用、生态等多个角度阐述大模型技术引发的新一轮人工智能变革,并指出大模型技术可能带来的风险和挑战,最后给出了我国大模型发展的一些启示与展望。

请识别上方二维码下载PDF原文




跨模态语言大模型:进展及展望

陈 露1, 2 张思拓1, 2 俞 凯1, 2*

1. 上海交通大学 计算机科学与工程系跨媒体语言智能实验室

2. 上海交通大学 人工智能教育部重点实验室

作者简介

俞凯上海交通大学计算机科学与工程系特聘教授,上海交通大学苏州人工智能研究院执行院长,思必驰公司首席科学家。中国人工智能产业发展联盟学术和知识产权组组长,CCF语音对话及听觉专委会副主任,中文信息学会理事。长期从事智能语音及语言处理的研究和产业化工作。发表国际期刊和会议论文200余篇,研究成果获国际期刊和会议最佳论文奖6次以及中国人工智能学会吴文俊人工智能自然科学奖一等奖等。

陈露上海交通大学计算机科学与工程系助理研究员。主要研究兴趣包括智能人机对话系统、对话式大语言模型、自然语言处理等。目前已在IEEE Transactions on Pattern Analysis and Machine IntelligenceNeural Information Processing SystemsAnnual Meeting of the Association for Computational Linguistics等国际会议和期刊上发表论文40余篇,获最佳论文奖或提名2次。作为项目或子课题负责人承担国家自然科学基金青年科学基金项目、重大研究计划(重点项目)等。其部分研究成果通过产学研合作获得大规模推广应用,并获第二十三届中国专利奖优秀奖。

摘 要


以ChatGPT为代表的对话式语言大模型通过使用超大规模模型参数和海量训练数据,涌现出很强的上下文学习能力和思维链推理能力,在各种自然语言处理任务上取得了显著的进步,被视为颠覆性通用人工智能技术。在纯文本语言大模型突破的基础上,近期显现的重要技术发展趋势是向能够理解和生成语音、图像、图形等其他模态数据的跨模态语言大模型的转变。随着大模型技术的快速发展,跨模态语言大模型逐步拥有了较强的多模态感知以及初步的跨模态认知能力。本文将从多模态感知大模型、跨模态认知大模型、以及分布式智能体系统三种范式综述跨模态语言大模型技术体系的演进过程,并总结相关的评测基准,最后讨论跨模态语言大模型面临的技术挑战及潜在重要研究方向。

请识别上方二维码下载PDF原文




大语言模型时代下的信息检索研究发展趋势

赵 鑫 窦志成 文继荣*

中国人民大学 高瓴人工智能学院

作者简介

文继荣教授,博士生导师,中国人民大学信息学院院长,高瓴人工智能学院执行院长,新一代智能搜索与推荐教育部工程研究中心主任。研究领域为信息检索、人工智能。

赵鑫中国人民大学高瓴人工智能学院教授,博士生导师,获得国家自然科学基金优秀青年科学基金项目资助。研究领域为信息检索、自然语言处理。

摘 要


以ChatGPT为代表的大语言模型带来了人工智能技术的新一轮发展浪潮,获得了广泛的社会关注。大语言模型通过大规模无标注数据预训练、指令微调、人类对齐等关键技术途径,学习到了丰富的世界知识,具有较好的文本理解与生成能力,能够有效求解各种复杂任务。这一重要技术进展对于信息检索领域的发展带来了新的机遇。本文从大语言模型对于已有信息检索架构的改进以及现有检索技术如何改进大语言模型两个方面进行阐述,针对相关科学问题的可行技术方法进行了梳理与展望,探讨大语言模型时代下的信息检索发展趋势,旨在推动信息检索领域的科研进步。

请识别上方二维码下载PDF原文





GPT-4对多模态大模型在多模态理解、生成、交互上的启发

刘 静1, 2* 郭龙腾1, 2

1. 中国科学院 自动化研究所

2. 中国科学院大学 人工智能学院

作者简介

刘静中国科学院自动化研究所研究员,博士生导师。主要研究方向为多模态分析理解、多模态预训练大模型等。曾获中国电子学会自然科学奖一等奖、中国图象图形学学会科学技术奖二等奖、世界人工智能大会“卓越人工智能引领者奖SAIL”等奖项。在相关领域的国际学术竞赛中荣获冠军10余次。已发表高水平学术论文150余篇。主持国家自然科学基金优秀青年科学基金项目、面上项目等。

摘 要


对话式聊天机器人ChatGPT以近乎摧枯拉朽的气势席卷社会,拨开了通用人工智能的曙光。ChatGPT的升级版GPT-4是个多模态大模型,它从单调的文本交互,升级为可以接受文本与图像组合的多模态输入,相比传统的单模态大模型,多模态大模型更加符合人类的多渠道感认知方式,能够应对更加复杂丰富的环境、场景和任务。GPT-4表明在多模态大模型中引入基于人类知识的自然语言理解与生成能力能够带来模型在多模态理解、生成、交互能力上的巨大提升。本文将介绍多模态大模型的概念、关键技术、近期进展和应用场景、GPT-4的技术特性,并重点探讨以GPT-4为代表的大语言模型对构建多模态大模型的几点启发。具体而言,将讨论如何充分利用大语言模型的语言能力,在多模态大模型的构建中,借助语言的帮助更好地感知理解世界、创作生成内容、与人和环境交互。

请识别上方二维码下载PDF原文




参 考 文 献(略)

//

关于《中国科学基金》

《中国科学基金》(双月刊)是国家自然科学基金委员会主管、主办的综合性学术期刊。主要宣传党和国家的科技方针政策、国家自然科学基金的发展战略和资助政策,报道中国基础研究的最新进展,传播优秀创新成果,交流科学基金管理经验,弘扬科学家精神,促进人才培养,为支撑国家基础研究战略决策,推动国家科技自立自强提供有力保障。

《中国科学基金》已被北大中文核心、中国科学引文数据库(CSCD)核心库、中国科技论文与引文数据库(CSTPCD)、中文社会科学引文索引(CSSCI)扩展版以及日本科学技术振兴机构数据库(JST)等国内外知名检索系统收录。2021~2023年连续三年入选“中国国际影响力优秀学术期刊”。

扫描或长按识别下方二维码关注我们

喜欢本篇内容请给我们点个 

在看

点击查看文章原文
上一篇
机器翻译译后编辑 | 《AI辅助译后编辑新方向——基于ChatGPT的翻译实例研究》文献分享
下一篇
张俊林:由ChatGPT反思大语言模型(大模型)的科技精要
返回列表