GPT中文比国产大模型强?清华大学孙茂松:英语训练刻画语义空间,带动中文能力
搜狐科技《思想大爆炸——对话科学家》栏目第18期,对话欧洲科学院外籍院士、清华大学计算机与科学技术系教授、清华大学人工智能研究院常务副院长孙茂松。
嘉宾简介
孙茂松,清华大学计算机科学与技术系长聘教授(曾任该系系主任)。清华大学人工智能研究院常务副院长,欧洲科学院外籍院士,国际计算语言学学会(ACL)会士,中国人工智能学会会士、中国中文信息学会会士。长期从事自然语言处理、人工智能、计算社会人文研究。国家重点基础研究发展计划(973计划)项目首席科学家,国家社会科学基金重大项目首席专家。在国内外一流学术会议和重要刊物上发表论文200余篇,Google Scholar论文引用3.4万次。2016年获“全国优秀科技工作者”。
(资料图片)
划重点
1.ChatGPT主要用英文数据做训练,为何中文能力也很强?英语的语料覆盖面大,质量较高,很多学术论文都是英文。英语训练很好地刻画了语义空间,这时再加入中文语料,相当于在语义空间里把中文和英文做某种对齐。这种情况下,它的主要能力是由英语带过来的。
2. 想要进一步提升大模型的中文能力,需建设高质量的语料库,比如像中文的科技论文库之类的。另外,大模型真的要做到通用程度的话,英文能力要有,再去做中文,把中文语料再搞大一些,这样可能会把能力进一步地提升。
3. AI赋能科学研究我觉得天地辽阔,现在才是刚刚开始,努力耕耘的话,应该很快就有不错的收获。
4.如果你觉得科研枯燥,就请你不要做科研。一定要有兴趣才来做,而不是把它简单当成一份工作,有兴趣就不会觉得枯燥,反而会觉得其乐无穷。
出品|搜狐科技
作者|郑松毅
近日,由中国科协科学技术传播中心与清华大学求真书院主办的基础科学与人工智能大会在北京国家科技传播中心召开。
大会开场前,围绕如何提升大模型中文理解能力、人工智能如何赋能基础科学研究等问题,搜狐科技与欧洲科学院外籍院士、清华大学计算机与科学技术系教授、清华大学人工智能研究院常务副院长孙茂松进行了对话。
孙茂松曾将ChatGPT称为“通用人工智能的幽灵”,并用杜牧的《阿房宫赋》举例,ChatGPT精准的挑出了文中所有描写阿房宫的句子,令他不禁感叹ChatGPT理解中文能力之强。
当被问及为什么ChatGPT主要用英文数据做训练,为什么其仍具备强大的中文理解及创作能力时,孙茂松表示,“英语的语料足够大,覆盖面比中文要好,质量也比较高,很多学术论文都是英文,能被用来训练的就多。因此通过英语的语言训练,很好地刻画了语义空间。语义空间和语言是相对独立的,但又不完全独立,这时候再用一些中文语料,相当于在语义空间里把中文和英文做某种对齐。这种情况下,它的主要能力是由英语带过来的。”
孙茂松认为,语言大模型提升中文语言能力的关键在于提升中文语料的质量和数量。他强调,“高质量的语料库还要想办法去建设,比如像中文的科技论文库之类的,能不能拿来用,这是一方面。另外,大模型真的要做到通用程度的话,英文能力要有,再去做中文,中文的话尽量要把语料再搞大一点。这样可能会把能力进一步地提升,因为语言之间有很多是可以打通的。”
谈及AI如何赋能基础科学研究,以及如何才能坚持做好科研工作时,孙茂松表示,“AI赋能科学研究我觉得天地辽阔,现在才是刚刚开始,努力耕耘的话,应该很快就有不错的收获。”他强调,“如果你觉得科研枯燥,就请你不要做科研。一定要有兴趣才来做,而不是把它简单当成一份工作,有兴趣就不会觉得枯燥,反而会觉得其乐无穷。”
以下为对话实录(经整理编辑)
搜狐科技:您曾将ChatGPT称为“通用人工智能的幽灵”,并用杜牧的《阿房宫赋》举例,称赞其理解古文、绘画中国风场景图的能力令人震惊。我们知道ChatGPT主要做英文,中文是捎带的,在您看来,为什么其仍具备比一些中国厂商做的语言大模型更强大的中文能力?
孙茂松:ChatGPT处理的空间实际上是语义空间,语义空间从自然语言处理的角度来说是相对稳定的,它跟不同的语言有关系,但核心部分是通用的。
英语的语料足够大,覆盖面比中文要好,质量也比较高,比如英语的论文能被用来训练的会比中文多不少。因此通过英语的语言训练,很好地刻画了语义空间。语义空间和语言是相对独立的,但又不完全独立,这时候再用一些中文语料,相当于在语义空间里把中文和英文做某种对齐。这种情况下,它的主要能力是由英语带过来的。
搜狐科技:中国现有的大模型似乎对中文的理解能力并不尽如人意,根据中文指令绘图、写作文的能力也不强,在您看来,该从什么方面去提升大模型中文理解和创作的能力?
孙茂松:高质量的语料库还要想办法去建设,比如像中文的科技论文库之类的,能不能拿来用,这是一方面。另外的话,大模型真的要做到通用程度的话,英文能力要有,再去做中文,中文的话尽量要把语料再搞大一点。这样可能会把能力进一步地提升,因为语言之间有很多是可以打通的。
搜狐科技:在您看来,AI是如何赋能基础科学的发展的?
孙茂松:AI赋能科学研究我觉得天地辽阔,现在才是刚刚开始,努力耕耘的话,应该很快就有不错的收获。
搜狐科技:很多外界人士认为,做科研工作会较为枯燥,有可能很多年都难以做出突破性的成绩,能否请您分享一下对于科研工作价值意义的理解?
孙茂松:如果你觉得科研枯燥,就请你不要做科研。一定要有兴趣才来做,而不是把它简单当成一份工作,有兴趣就不会觉得枯燥,反而会觉得其乐无穷。
标签: