品牌 资讯 搭配 材料 时尚 热点 行业 首饰 玉石 行情

GPT中文比国产大模型强?清华大学孙茂松:英语训练刻画语义空间,带动中文能力

2023-07-31 08:55:25 来源:搜狐科技

搜狐科技《思想大爆炸——对话科学家》栏目第18期,对话欧洲科学院外籍院士、清华大学计算机与科学技术系教授、清华大学人工智能研究院常务副院长孙茂松。

嘉宾简介

孙茂松,清华大学计算机科学与技术系长聘教授(曾任该系系主任)。清华大学人工智能研究院常务副院长,欧洲科学院外籍院士,国际计算语言学学会(ACL)会士,中国人工智能学会会士、中国中文信息学会会士。长期从事自然语言处理、人工智能、计算社会人文研究。国家重点基础研究发展计划(973计划)项目首席科学家,国家社会科学基金重大项目首席专家。在国内外一流学术会议和重要刊物上发表论文200余篇,Google Scholar论文引用3.4万次。2016年获“全国优秀科技工作者”。


(资料图片)

划重点

1.ChatGPT主要用英文数据做训练,为何中文能力也很强?英语的语料覆盖面大,质量较高,很多学术论文都是英文。英语训练很好地刻画了语义空间,这时再加入中文语料,相当于在语义空间里把中文和英文做某种对齐。这种情况下,它的主要能力是由英语带过来的。

2. 想要进一步提升大模型的中文能力,需建设高质量的语料库,比如像中文的科技论文库之类的。另外,大模型真的要做到通用程度的话,英文能力要有,再去做中文,把中文语料再搞大一些,这样可能会把能力进一步地提升。

3. AI赋能科学研究我觉得天地辽阔,现在才是刚刚开始,努力耕耘的话,应该很快就有不错的收获。

4.如果你觉得科研枯燥,就请你不要做科研。一定要有兴趣才来做,而不是把它简单当成一份工作,有兴趣就不会觉得枯燥,反而会觉得其乐无穷。

出品|搜狐科技

作者|郑松毅

近日,由中国科协科学技术传播中心与清华大学求真书院主办的基础科学与人工智能大会在北京国家科技传播中心召开。

大会开场前,围绕如何提升大模型中文理解能力、人工智能如何赋能基础科学研究等问题,搜狐科技与欧洲科学院外籍院士、清华大学计算机与科学技术系教授、清华大学人工智能研究院常务副院长孙茂松进行了对话。

孙茂松曾将ChatGPT称为“通用人工智能的幽灵”,并用杜牧的《阿房宫赋》举例,ChatGPT精准的挑出了文中所有描写阿房宫的句子,令他不禁感叹ChatGPT理解中文能力之强。

当被问及为什么ChatGPT主要用英文数据做训练,为什么其仍具备强大的中文理解及创作能力时,孙茂松表示,“英语的语料足够大,覆盖面比中文要好,质量也比较高,很多学术论文都是英文,能被用来训练的就多。因此通过英语的语言训练,很好地刻画了语义空间。语义空间和语言是相对独立的,但又不完全独立,这时候再用一些中文语料,相当于在语义空间里把中文和英文做某种对齐。这种情况下,它的主要能力是由英语带过来的。”

孙茂松认为,语言大模型提升中文语言能力的关键在于提升中文语料的质量和数量。他强调,“高质量的语料库还要想办法去建设,比如像中文的科技论文库之类的,能不能拿来用,这是一方面。另外,大模型真的要做到通用程度的话,英文能力要有,再去做中文,中文的话尽量要把语料再搞大一点。这样可能会把能力进一步地提升,因为语言之间有很多是可以打通的。”

谈及AI如何赋能基础科学研究,以及如何才能坚持做好科研工作时,孙茂松表示,“AI赋能科学研究我觉得天地辽阔,现在才是刚刚开始,努力耕耘的话,应该很快就有不错的收获。”他强调,“如果你觉得科研枯燥,就请你不要做科研。一定要有兴趣才来做,而不是把它简单当成一份工作,有兴趣就不会觉得枯燥,反而会觉得其乐无穷。”

以下为对话实录(经整理编辑)

搜狐科技:您曾将ChatGPT称为“通用人工智能的幽灵”,并用杜牧的《阿房宫赋》举例,称赞其理解古文、绘画中国风场景图的能力令人震惊。我们知道ChatGPT主要做英文,中文是捎带的,在您看来,为什么其仍具备比一些中国厂商做的语言大模型更强大的中文能力?

孙茂松:ChatGPT处理的空间实际上是语义空间,语义空间从自然语言处理的角度来说是相对稳定的,它跟不同的语言有关系,但核心部分是通用的。

英语的语料足够大,覆盖面比中文要好,质量也比较高,比如英语的论文能被用来训练的会比中文多不少。因此通过英语的语言训练,很好地刻画了语义空间。语义空间和语言是相对独立的,但又不完全独立,这时候再用一些中文语料,相当于在语义空间里把中文和英文做某种对齐。这种情况下,它的主要能力是由英语带过来的。

搜狐科技:中国现有的大模型似乎对中文的理解能力并不尽如人意,根据中文指令绘图、写作文的能力也不强,在您看来,该从什么方面去提升大模型中文理解和创作的能力?

孙茂松:高质量的语料库还要想办法去建设,比如像中文的科技论文库之类的,能不能拿来用,这是一方面。另外的话,大模型真的要做到通用程度的话,英文能力要有,再去做中文,中文的话尽量要把语料再搞大一点。这样可能会把能力进一步地提升,因为语言之间有很多是可以打通的。

搜狐科技:在您看来,AI是如何赋能基础科学的发展的?

孙茂松:AI赋能科学研究我觉得天地辽阔,现在才是刚刚开始,努力耕耘的话,应该很快就有不错的收获。

搜狐科技:很多外界人士认为,做科研工作会较为枯燥,有可能很多年都难以做出突破性的成绩,能否请您分享一下对于科研工作价值意义的理解?

孙茂松:如果你觉得科研枯燥,就请你不要做科研。一定要有兴趣才来做,而不是把它简单当成一份工作,有兴趣就不会觉得枯燥,反而会觉得其乐无穷。

标签:

(责任编辑:)

相关文章

GPT中文比国产大模型强?清华大学孙茂松:英语训练刻画语义空间,带动中文能力

​ 大会开场前,围绕如何提升大模型中文理解能力、人工智能如何赋能基础

2023-07-31 08:55:25

国家金融监管总局:加大对扩大内需的金融支持力度

​7月27日,国家金融监督管理总局举行银行业保险业2023年上半年数据发布

2023-07-31 08:29:05

推进“数实融合” 中国数字智能生态大会亮相成都

​数实融合是当下数字化转型最火的话题,以人工智能、大数据、云计算为代

2023-07-31 07:38:39

7月31日重点数据和大事件前瞻

​7月31日,投资者需要关注的重点数据:中国7月官方制造业PMI,德国6月实

2023-07-31 06:24:14

为什么小叶紫檀手串不亮(为什么小叶紫檀是佛珠)

​今天小鱼来为大家解答以上问题,为什么小叶紫檀手串不亮,为什么小叶紫

2023-07-31 01:50:11

天齐锂业:公司对参股公司SQM的投资作为长期股权投资,按照权益法进行核算

​每经AI快讯,有投资者在投资者互动平台提问:你好,智利矿业是合并报表

2023-07-30 22:27:15

中国电建:新疆首座抽水蓄能电站上水库蓄水通过阶段性验收

​证券时报e公司讯,近日,由中国电建EPC总承包的新疆首座抽水蓄能电站迎

2023-07-30 21:17:00

《卧龙苍天陨落》更新计划:新DLC"称霸江东"9月上线

​《卧龙:苍天陨落》总监平山正和、开发制作人山际真晃在今天公布了本作

2023-07-30 19:56:20

全球首个长效三靶点激动剂中国临床获批 华东医药加速创新药研发

​7月30日晚间,华东医药发布公告称,控股子公司浙江道尔生物科技有限公

2023-07-30 18:53:03

马斯克意外遭苹果“拦路”!推特无法在AppStore顺利改名

​快科技7月30日消息,js早些编程客栈时候,在马斯克的力推之下,推特在P

2023-07-30 18:05:05

机器人踢足球图片(机器人踢足球简介)

​HELLO,我是智能手机网小溪,我来为大家解答以上问题。机器人踢足球图

2023-07-30 16:56:00

意大利女足最新战况 意大利女足5球惨败后16岁小将痛哭 基本情况讲解

​1、意大利女足最新战况2、意大利女足5球惨败后16岁小将痛哭3、以上就是

2023-07-30 16:00:38

“出门遇3事,必定有祸事”,指哪“3事”?有道理吗?

​对于出门,在以前是有一些讲究的。特别是在一些很大的事情上,民间对于

2023-07-30 14:46:30

湖南省展览馆展销会时间表2022年

​今天小鱼来为大家解答以上问题,湖南省展览馆展销会时间表2022年很多人

2023-07-30 13:39:40

中泰证券给予维峰电子买入评级,国产工控连接器龙头,汽车+新能源助力新成长

​每经AI快讯,中泰证券07月29日发布研报称,给予维峰电子(301328 SZ,

2023-07-30 12:46:18

拜仁从英超挖人这么难?买个二门也被要价4000万…

​体坛加,体坛+,刘川,拉亚,拜仁,布伦特福德,曼联,拜仁从英超挖人这么难?

2023-07-30 11:13:39

2023年上半年全国规模以上文化及相关产业企业营业收入增长7.3%

​每经AI快讯,据对全国7 2万家规模以上文化及相关产业企业(以下简称“

2023-07-30 10:35:48

郭松龄为什么要反张雨亭?除性格决定命运,还有一个隐藏心底梦想

​郭松龄为什么要反张雨亭?除性格决定命运,还有一个隐藏心底梦想,清朝

2023-07-30 08:59:54

厦门首例第三代试管婴儿在市妇幼保健院顺利降生

​厦门网讯(厦门日报通讯员陈锋记者楚燕)28日,在我市医疗机构成功受孕

2023-07-30 08:03:50

独家|Worldcoin代币已现黄牛代扫业务,300元可买随机虹膜认证

​近期,在交易网站上出现了加密货币项目WLC(Worldcoin)的黄牛业务。由

2023-07-30 06:20:57

安徽基本农田强占怎么样给

​1、基本农田遇到征收依照土地管理法的规定征收土地的,按照被征收土地

2023-07-30 04:52:48

福建省泉州市2023-07-30 00:08发布暴雨蓝色预警

​一、福建省泉州市天气预报1、南安市气象台2023年07月30日00时08分将暴

2023-07-30 01:12:15

迪马:米兰正和谢周三谈判,想外租47万欧冬窗标王、门将巴斯克斯

​迪马:米兰正和谢周三谈判,想外租47万欧冬窗标王、门将巴斯克斯,标王,

2023-07-29 22:07:09

“很荣幸成为1/31” 这是属于大运会火炬手们的一段闪亮的记忆

​成都第31届世界大学生夏季运动会开幕式昨晚在东安湖体育公园主体育场举

2023-07-29 20:25:07

请问圆周率全部数字怎么写_请问圆周率全部数字

​1、圆周率用希腊字母π(读作pài)表示,是一个常数(约等于3 1415926

2023-07-29 19:08:14

20日线30日线拐头向下,任何反弹都是逃命机会[旺柴][旺柴][旺柴][旺柴]

​据彭博社当地时间7月28日报道,据知情人士透露,美国总统拜登计划在8月

2023-07-29 18:12:06

唱响网络青春主旋律——“中国青年好网民”优秀成果展示片上线

​近日,2023年中国网络文明大会网络文明社会共建论坛在厦门举行。论坛现

2023-07-29 16:53:30

青春盛会 直击大运会开幕丨百秒烟花照亮成都夜空 大运圣火点燃青春激情

​7月28日晚,成都第31届世界大学生夏季运动会开幕式在东安湖体育公园主

2023-07-29 15:56:59

滨州市住建局市政公用发展服务中心开展雨后巡查和防汛抢险物资储备情况检查

​大众网记者张迪滨州报道7月29日上午,滨州市住建局市政发展中心蔺建军

2023-07-29 15:01:15

【个体工商户服务月-税政云视听】个体工商户如何参加社保?

​为推动《促进个体工商户发展条例》全面落实,优化个体工商户发展环境,

2023-07-29 13:59:03