来源|多知网
演讲嘉宾|李大海
整理|徐晶晶
摄|张蔚斐
ChatGPT对教育的影响已引发诸多探讨,教育与大模型的结合会有哪些可能?在多知网近日举办的OpenTalk第40期“‘教育+大模型’的实践与创想”活动上,知乎合伙人、CTO李大海分享了知乎知海图AI中文大模型的发展和应用前景和畅想。
核心观点:
1.2022年底发布的 ChatGPT 可以看成智能时代的第一台蒸汽机,虽然还有很多问题和限制,但无疑已经开启了一个新的时代。
2.未来一定会出现很好的大模型通用智能,但在这个过程中,当通用还不够的时候,我们也需要用很多场景里面的专有知识去做对齐。
3.大模型特别有用的一个能力是理解能力,理解能力是比生成能力更早成熟的。对知乎这样的场景来说,理解能力能够更精细地描绘内容,从而可以更精细描绘用户,做内容跟用户连接的时候,效率和准确性会更高,这对分发体验有很大的帮助。
4.AI是人类能力的扩增,人才是中心。
5.我们现在认为ChatGPT这个产品一定不是通用智能未来的终极产品形态。因为这种对话式的方式门槛还是蛮高的,问不出好的问题效果会很差,人类要学会用AI的方式提问。
以下为李大海分享全文(经多知网整理编辑):
大家下午好!首先非常感谢多知网邀请我来参与这个分享交流。我是李大海,2015年加入知乎,是知乎的合伙人和CTO。随着AI技术的进步,知乎也在不断用更新的技术武装整个技术体系。
ChatGPT发布之后,让整个技术圈都震动了。OpenAI做得很了不起的一件事是,让所有人在很短时间里达成共识,即这是非常有应用前景的技术。如此大范围的共识达成是非常不容易的。
我属于技术激进派,我认为ChatGPT的面世是一件非常重要的事情,这是一个时代的开端。我当时的形容是“这就是智能时代的蒸汽机”。对于智能时代来说,ChatGPT仍有很多缺点,但是三年后再看,一定会非常不一样。今年2月份的时候,我周围还有朋友对这件事表示怀疑,甚至有一些NLP领域前辈们认为,这只是一个概率游戏。任何一个新的事物出现,有不同的看法是非常正常的。但是到今天,我相信持有这种看法的人越来越少,哪怕非技术圈的人也对这个技术越来越buy in了。我们也可以看到技术圈的人非常焦虑,过去几个月,每天早晨起来一刷新闻就看到又有新模型或者新应用方式出来了,连论文都读不过来,更别说自己动手做了。所以整个技术圈的人都有点焦虑。
GPT4、PaLM2或StableDiffusion这些大模型的进展非常快。在知乎4月举行的发布会上,我讲到过,客观来看,现在大模型在中文跟英文上的语言能力还是有区别的,它的中文能力会稍微弱一点。这背后的原因主要还是数据。现在的大模型已经完完全全是一个data centric 型的工作了。有多少数据就有多少智能,大模型时代,数据的量和质决定了模型的能力。
但是,我们在工作的过程中也能够看到,整个中国的语料还是非常丰富的,只不过可以公开获取的数据规模会少一些。不过,我们很高兴看到北京市前几天发布了一份文件(《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》),政府也意识到数据公开的重要性,所以组织工业界、学术界一起构建开放的数据库。
我有信心,中美在大模型开发上的竞争中,我们至少不会被甩开。因为AI的关键要素之一是数据,此外很多工作也属于工程范畴,这些领域中国都有自己的优势。大模型在这条路上有模拟人脑的感觉了。有一本书叫《千脑智能》,它的核心逻辑就是,人的大脑功能结构是非常单一的,处理视觉信号的大脑区域,跟做决策做逻辑分析的区域结构一样,只是人脑发育过程中通过学习会自动形成分区。现在大模型从模型结构上越来越简单,越来越往这个思路上靠近。所以未来模型上的发展,更多是效率上的优化,是怎么把推理效率和训练效率提升起来,怎么能支撑更大规模的训练,这些都是工程方面的工作。中国的工程能力非常强,所以工程这块中国是不会输给美国的。所以我相信时间稍微拉长一点,我们在这个竞争中一定能发挥自己的优势。
01
知乎在大模型方向的探索历程
简单介绍一下知乎在大模型方向上的工作。ChatGPT发布以后,我们跟业内很多公司交流。在新年前后,我们跟面壁智能做了深度沟通,他们的源代码是开放的,也有API,我们就做了一个比较深度的评测,非常认可这家公司的技术能力。所以我们对面壁智能做了一轮战略投资,现在我们两个团队在一起无间地工作。
面壁智能是2020年开始做大模型开发的,他们联合北京智源研究院一起研发出了CPM-1到CPM-3三个大模型。在这个基础之上,面壁智能又做了CPM-Ant和CPM-Bee两个大模型。
大模型本身是分三层,首先要有一个预训练模型,逻辑上像是一个我们先培养一个人掌握通识教育,让他不停背书学习,能够达到一个中学生或者普通大学生的素质水平。然后在此基础上去做对齐,也就是做专业训练,比如把他培养成一个律师,培养成一个心理咨询师等。预训练模型的潜力决定它做对齐时的效率。预训练潜力越高,对齐时教它的东西越少,举一反三地越快。
知乎跟面壁智能一起做了大模型预训练之后,今年4月份,用知乎自己的数据同步上线了一个功能,就是对热榜问题下的观点进行抽取和聚合,这个功能叫做“热榜摘要”。
这个功能现在只是小范围内测,后续会全面开放。
知乎热榜摘要现在大概是有两种样式:一种是很开放的条理样式,一个问题底下用户有不同的表达,聚合起来一般是多种主要观点,我们把这些观点直接展现在这里,让用户一眼就可以看到这个问题下回答的大致方向。另一种是一些比较封闭的问题(比如是与否、会与不会等),我们会把所有的知友回答核心观点抽取出来,按照回答的类型分类。
这是大模型在知乎的第一个应用,也是一次试水,目的是为了测试一下我们的大模型在内容理解、抽取等方面能做到什么程度。
做这个产品的过程中我们也有一些经验和收获:未来一定会出现很好的大模型通用智能,但是在这个过程中,工作是混合的,当通用还不够的时候,我们也需要用很多场景中的专有知识去做对齐。这个对齐是很有必要的,我们做了很多对齐的工作,也体会到数据的重要性。
我们现在只是尝试了大模型在知乎场景的其中一个应用,未来还会有更多,这些应用都建立在整个模型工作的系统化框架之上。如果没有这些框架,我们做很多事情的效率会低很多。
02
知海图 AI 应用畅想
刚才讲了热榜摘要算是知乎的第一个大模型应用,我认为,大模型可以将知乎整个业务都重写一遍、升级一遍。
第一是内部能力的提升。很多工作都可以通过大模型来提效,包括运营、设计、产品等等。
第二,知乎本身是一个在图文领域很有优势的高质量社区。大模型特别有用的一个能力是理解能力。其实理解能力是比生成能力更早成熟的。它能够更精细地描绘内容,有了对内容更精细的描绘,我们就可以更精细描绘用户,做内容跟用户连接的时候,效率和准确性会更高,这对分发体验有非常大的帮助。
第三,对知乎来讲,我们仍然是一家以人为本的社区,所以人是最重要的。我们一直在讲,AI是人类能力的扩增,人才是中心。大模型开发过程中,我们会考虑给创作者提供足够的创作赋能,这个赋能是Copilot的角色,它不是主角。我们希望创作者拿到AI辅助功能之后,能在修辞、行文工作上迅速提效,但是创作的思想必须是自己的,这是非常重要的一个点。
回到今天分享的主题:教育。未来在教育领域,我们相信也有非常多可以落地的地方。因为教育本身就是天然需要个性化、需要更多智能来做的。有教无类,要实现个人教育过程中的价值最大化,一定要贴向用户的独特的特点来进行。基于这样的逻辑,我相信在数据量足够大的情况下,大模型定制化地给个人提供的价值,可能比设计好的千篇一律的教学方案要更大。
通过大模型的能力,构建智能化的学习方式和学习场景,用户在语言学习场景具有完整度的体验。
在大模型推出之前,我们就看到很多头部教育公司已经在这个方向探索,比如构建海量的题库,根据他们收集的数据,通过不同的学生对这个题目做出来的准确率,来度量这个题目难度。反过来通过学生每道题做得怎么样,去衡量这个同学的掌握情况,再针对性地给他更有价值的题目等等。
有大模型推出之前,颗粒度是在题目上,题目是一个对象,会抽取一些知识点,但颗粒度比较粗糙。但在大模型时代,出众的理解能力和生成能力可以把这些都打碎,大模型能够根据自己的理解,让颗粒度更细化,我相信这是大模型能带给教育的非常高的价值。
在超真实体验方面,大模型配上虚拟人,配上声音,我相信它也能够解决陪伴的问题。因为虚拟人跟每个学生的交互,能够让学生感觉到自己得到关注。在上大班课的时候,是否得到老师关注,学生感受是非常不一样的。有了这样陪伴式的体验,我相信对学生来说是有额外的价值的。
目前市面上有一些结合大模型的教育应用。比如日韩的一款应用speak,也是OpenAI投资的一家公司,该产品在日本和韩国的业务数据非常好。应用了大模型以后,speak能够非常个性化地贴近用户,用更地道的口语跟用户聊天,让学习不再是一件枯燥的事情,而是一个以人为本的事情。
ChatGPT这样的产品现在还是智能时代的蒸汽机,还有很多不足。现在大模型还面临着很多挑战:
比如可信度方面,存在幻觉,会胡说八道;时效性方面也有待提升;使用门槛方面也存在问题。我们认为ChatGPT这个产品一定不是通用智能未来的终极产品形态。因为这种对话式的方式门槛还很高,问不出好的问题效果会很差,所以目前人类还要会用AI的方式提问。
就数据而言,整个中文开放语料相对英文来说,小了很多。所以,怎么把现存的中文优秀语料让大家更低成本地拿到,对于中国AI发展是非常重要的。我们可以看到,图像大模型的进展很快,就是因为海外有几个英文的开源图文对数据集,质量和数量都很好。因为有这些开放的语料,大模型卷起来会非常快。另外,数据的安全合规也会变成一个非常大的挑战。因为数据采集越来越容易,怎样在过程中把用户隐私与合法有效的数据区分开,不要让AI脱缰,非常重要。
在标注方面,标注难度、标注成本、标注偏见都存在挑战。对齐数据质量非常重要,需要在不同的标注员间仔细地拉齐标注的标准。另外,对齐数据标准太高,需要更多更专业的人来做,我们以前做简单任务标注的同学,实践中无法胜任这个工作。因此也对成本和配套的培训提出很高的要求。
此外挑战还包括算力和政策合规等,不多赘述。
面向未来,现在的AI还是一个在学走路的“小朋友”,未来它逐步长大,到一定程度的时候,它的安全性也是一个非常大的问题。我们相信技术演进是非线性的,在某个阶段可能有一定的爆发性,存在指数上升的可能,也许这天来得比我们想象的快,我们是不是准备好了AI安全性上的安全措施,是否能够做得足够到位?这也是很大的挑战。
我今天的分享就到这里,也希望跟行业里的朋友们多交流,能够跟大家一起提供足够好的中文AI服务。大模型时代,让中国用户享受与英文用户一样优质的服务。谢谢大家。
03
Q&A
提问:因为知乎是问答社区,我们特别好奇,如果有人用GPT回答的内容在知乎上灌水,这样的内容,知乎是怎么过滤的?
李大海:我们很关注这个问题,也做了一些对抗性的工作。不过这个工作比较难,不可能全面准确地做出检测。
第二点,我们也认为,以人为中心的工作,AI是可以在其中起作用的。不是说有AI成分就是完全不对的。
结合在一起,我们更倾向于认为,如果你的内容本身非常有优势,有你的洞见,我们并不关注其中有没有AI参与。今年我们3月份上线了一个功能,叫做AI创作声明,一旦创作者使用了这个声明,我们就不会对内容做干预。当然,对于滥用 GPT 的账号,我们是不欢迎的。
提问:您提到的问一个好问题也是非常重要的,我以前在教育行业,现在我是记者,所以工作主要就是问问题,现在ChatGPT大模型可以生成很多回答,这个回答是不是本身就可以是好问题?我的问题是,要想让大模型回答本身就是一个好问题,怎么样才能让它生成这样恰当的好问题?
李大海:大模型当然能提出很好的问题。最近跟一些行业里的朋友聊天,看到有一些场景,是拿大模型去训聊天机器人。聊天机器人这样的场景,和 ChatGPT 这种场景其实不太一样,AI 模型需要主动引发话题,才能聊起来,才会给用户带来陪伴感。从一些产品的 demo 感受来看,大模型在这个场景的提问并不差。
您刚才问的问题可能跟您的职业比较相关,这是通用场景。我没有试过怎么引导模型提好问题,不过建议可以往这个方向尝试一下:您平时本来就会问很多问题,可以拿这些所有问题来先问大模型,哪些是好问题,再让它提出一些类似的好问题,模型是可以用启发式的方式沟通的。
提问:我有一个关于模型大小的问题,我们都知道知乎是现在中国互联网上语料或者数据优势度相对来说最高的平台,在语料优势达到一定程度的情况下,我们对于不同大小的模型,在业务实际场景下的效果评估上,大概是怎样的?
李大海:模型的大小跟它训练语料的数量和训练的时长有一定的线性关系。如果你的模型特别大,但是给它的语料不够,它是欠学习的状态,还不如同等语料的情况下,让一个小规模的模型充分学习,效果反而更好。
模型越大就需要越多高质量的数据。
回到业务上,模型规模的判断涉及到具体的业务目标。因为不同大小的模型,在不同领域的能力是不一样的。比如目前我们的感觉是,大模型最难涌现的能力是逻辑推理,如果业务需要的是这个能力,那就需要非常大的模型。
提问:知乎我感觉更偏向内容社交,您也展示了内容方面比如语义提取,在社交领域这块有没有一些提前的规划或者方向?因为前一阵子比较火的一个AI社区,就是城市AI人,知乎在社交互动方面是不是也可以引入一些问答或者交流类的?是不是有这方面的规划?
李大海:社交是知乎很重要的一个因素。所以我们也确实在思考,怎么能够用大模型来赋能产品,在社交上能有更好的效率。但是具体怎么做,还需要好好的想一想。因为大模型的基础能力怎么跟业务结合在一起,需要很多思考。
提问:我想问关于数据的开放性的问题。其实教育行业一样面临这样的问题。一方面希望模型比较好用,业务直接拿来就用。另一方面不愿意开放自己的核心数据。因为涉及到是否开放的问题,可能知乎跟面壁是深度合作,但如果是百度阿里等其他的大模型跟知乎合作,知乎会不会考虑数据开放性上的问题?
李大海:这确实是一个很难的问题。我们还是很开放的。2016年-2017年的时候,我记得当时有一个高校的教授找到我们,想要对接NLP科研项目。对方说,知乎数据太难爬了,很累,问我们能不能直接给他们,我们就开放了部分数据。当然,和业界其它公司的合作,具体到什么程度,这个需要更多业务上的思考。
我们最近也在跟开源界很多朋友交流,是不是可以开放一些高质量数据给到社区。其实从我们的角度来讲,如果这个事对社区有帮助,同时也没有显著影响到我们日常运营,我们是愿意开放的,但是我们也不能用自己的看法去要求所有人。总的来说这是一个难题,确实希望从政策和行业层面来组织推动破这个局。