2025年6月13日,“大模型的数学理论研讨会”在华为黄大年茶思屋(融科中心)召开。本次研讨会旨在围绕讨论大模型的数学基础、数据压缩与智能、机器学习的物理学原理等议题展开。
华为2012实验室理论研究部的牛雪妍博士做了题为“大模型中的信息论原理”综述报告,回顾了语言模型与香农猜测游戏的关系、压缩与智能的关系、Transformer 模型的构成、机器学习的物理学原理、大模型的尺度率等大模型数学理论的重要结果,介绍了华为团队在语义压缩、检索与推理、有损压缩、感知度量等方面的最新工作并提出了若干公开问题。
中国科学院数学与系统科学研究院高小山研究员介绍了其团队在过参数化深度神经网络的泛化性、记忆网络的泛化性、深度学习最优安全方面的工作。中国科学院数学与系统科学研究院李雷研究员介绍了其团队在类脑智能与数据无损压缩方面的工作。
双方商定,将在深度学习与大模型的数学理论方面加强合作。中国科学院数学与系统科学研究院与中国科学院软件所共10余人参加本次研讨会。