共提出21项具体措施。

北京制定通用人工智能创新措施:开展大模型创新算法及关键技术研究

2023-05-16 08:45:27发布     来源:多知网    作者:Charles  

  多知网5月16日消息,据北京市政府网站消息,北京市科委、中关村管委会制定了《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》,其中表示针对目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用的问题,整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源,建设合规安全的中文、图文对、音频、视频等大模型预训练语料库,通过北京国际大数据交易所社会数据专区进行定向有条件开放。

  征求意见稿指出,将新增算力建设项目纳入算力伙伴计划,加快推动海淀区“北京人工智能公共算力平台”,朝阳区“北京数字经济算力中心”等项目建设。加快推动数据要素高水平开放的“国家数据基础制度先行先试示范区”建设,争创国家级数据训练基地,提升北京人工智能数据标注库规模和质量。

  在探索通用人工智能路径方面,征求意见稿表示,围绕大型语言模型构建、训练、调优对齐、推理部署等全流程,支持开展创新算法及核心技术研究,形成完整高效的训练体系并对外开源。探索多模态通用模型架构,研究大模型高效并行训练技术,以及逻辑和知识推理、指令学习、人类意图对齐等调优方法,研发支持百亿参数模型推理的高效压缩技术。从“采、存、管、研、用”五个方面,研发包含数据采集、清洗、标注、脱敏、存储等功能在内的数据处理工具。

  构建多模态多维度的基础模型评测基准及评测方法。建立基础模型评测工具集,提供适应性的工具进行评测。研发适用于模型训练场景的新一代人工智能编译器,实现算子自动生成和自动优化,推动人工智能芯片与框架的广泛适配。研发人工智能芯片评测系统,实现多芯片多框架的自动化评测。

  征求意见稿表示,鼓励并组织来自不同学科的专业人员标注通用人工智能模型训练数据及指令数据,提高训练数据的多样性;鼓励优先采用安全可信的软件、工具、计算和数据资源,通过改进算法等技术手段,确保训练数据集的规范性;鼓励生成式人工智能产品在科研等非面向公众服务领域实现向上向善应用。

  此外,为了持续提升人工智能产业伦理治理自律自治能力,将研发并部署人工智能伦理治理公共服务平台,服务政府监管与产业自律自治,强化相关责任主体科技伦理规范意识,提升科技伦理治理能力。