在线看成人I亚州精品视频Iwww.日日日.comI色中射I久久久久99精品国产片I高清精品在线I2021国产在线

您的位置:首頁 >觀察 > 正文

焦點訊息:AI考生今日抵達,商湯與上海AI實驗室等發(fā)布“書生·浦語”大模型

隨著AI大語言模型越來越多地表現(xiàn)出接近人類智能,面向人類設(shè)計的高難度、綜合性考試被越來越多地引入到對語言模型的智能水平進行評測。OpenAI 在其關(guān)于 GPT-4 的技術(shù)報告中就主要通過各領(lǐng)域的考試對模型能力進行檢驗。

2023年高考今日開考,中文大語言模型是否能夠在高考中趕超ChatGPT呢?

綜合“大考”:“書生·浦語”多項成績領(lǐng)先于 ChatGPT


【資料圖】

近日,商湯科技、上海AI實驗室聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級參數(shù)大語言模型“書生·浦語”(InternLM)。

“書生·浦語”具有1040億參數(shù),是在包含1.6萬億token的多語種高質(zhì)量數(shù)據(jù)集上訓(xùn)練而成。

全面評測結(jié)果顯示,“書生·浦語”不僅在知識掌握、閱讀理解、數(shù)學(xué)推理、多語翻譯等多個測試任務(wù)上表現(xiàn)優(yōu)秀,而且具備很強的綜合能力,因而在綜合性考試中表現(xiàn)突出,在多項中文考試中取得超越ChatGPT的成績,其中就包括中國高考各個科目的數(shù)據(jù)集(GaoKao)。

“書生·浦語”聯(lián)合團隊選取了20余項評測對其進行檢驗,其中包含全球最具影響力的四個綜合性考試評測集:

由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評測集MMLU;

微軟研究院推出的學(xué)科考試評測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等);

由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集C-Eval;

以及由復(fù)旦大學(xué)研究團隊構(gòu)建的高考題目評測集Gaokao;

實驗室聯(lián)合團隊對“書生·浦語”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4進行了全面測試,針對上述四個評測集的成績對比如下(滿分100分)。

“書生·浦語”不僅顯著超越了GLM-130B和LLaMA-65B等學(xué)術(shù)開源模型,還在AGIEval、C-Eval,以及Gaokao等多個綜合性考試中領(lǐng)先于ChatGPT;在以美國考試為主的MMLU上實現(xiàn)和ChatGPT持平。這些綜合性考試的成績反映出“書生·浦語”扎實的知識掌握程度和優(yōu)秀的綜合能力。

雖然 “書生·浦語”在考試評測上取得優(yōu)秀成績,但在測評中也可以看到,大語言模型仍然存在不少能力局限性。“書生·浦語” 受限于2K的語境窗口長度(GPT-4的語境窗口長度為32K),在長文理解、復(fù)雜推理、撰寫代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。另外,在實際對話中,大語言模型還普遍存在幻覺、概念混淆等問題。這些局限使得大語言模型在開放場景中的使用還有很長的路要走。

四個綜合性考試評測數(shù)據(jù)集結(jié)果

MMLU是由伯克利加州大學(xué)(UC Berkeley)聯(lián)合哥倫比亞大學(xué)、芝加哥大學(xué)和UIUC共同構(gòu)建的多任務(wù)考試評測集,涵蓋了初等數(shù)學(xué)、物理、化學(xué)、計算機科學(xué)、美國歷史、法律、經(jīng)濟、外交等多個學(xué)科。

細(xì)分科目結(jié)果如下表所示。

(圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二)

AGIEval是由微軟研究院在今年新提出的學(xué)科考試評測集,主要目標(biāo)是通過面向的考試來評估語言模型的能力,從而實現(xiàn)模型智能和人類智能的對比。

這個評測集基于中國和美國各類考試構(gòu)建了19個評測大項,包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT等重要考試。值得一提的是,在這19個大項有9個大項是中國高考,通常也列為一個重要的評測子集 AGIEval (GK)。

下列表格中,帶GK的是中國高考科目。

(圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二)

C-Eval是由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集。

它包含了52個科目的近14000道考題,涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計算機等學(xué)科考試,以及面向公務(wù)員、注冊會計師、律師、醫(yī)生的職業(yè)考試。

測試結(jié)果可以通過leaderboard獲得。

Gaokao是由復(fù)旦大學(xué)研究團隊構(gòu)建的基于中國高考題目的綜合性考試評測集,包含了中國高考的各個科目,以及選擇、填空、問答等多種題型。

在GaoKao測評中,“書生·浦語”在超過75%的項目中均領(lǐng)先ChatGPT。

分項評測:閱讀理解、推理能力表現(xiàn)出色

為避免“偏科”,研究人員還通過多個學(xué)術(shù)評測集,對“書生·浦語”等語言模型的分項能力進行了評測對比。

結(jié)果顯示,“書生·浦語”不僅在中英文的閱讀理解方面表現(xiàn)突出,并且在數(shù)學(xué)推理、編程能力等評測中也取得較好成績。

知識問答方面,“書生·浦語”在TriviaQA 和 NaturalQuestions 兩項評測上得分為69.8和27.6,均超越LLaMA-65B(得分為68.2和23.8)。

閱讀理解(英語)方面,“書生·浦語”明顯領(lǐng)先于LLaMA-65B和ChatGPT。浦語在初中和高中英語閱讀理解中得分為92.7和88.9,ChatGPT得分為 85.6 和81.2,LLaMA-65B則更低。

中文理解方面,“書生·浦語”成績?nèi)娉街饕膬蓚€中文語言模型ERNIE-260B和GLM-130B。

多語翻譯方面,“書生·浦語”在多語種互譯中的平均得分為33.9,顯著超越LLaMA(平均得分15.1)。

數(shù)學(xué)推理方面,“書生·浦語”在GSM8K和MATH這兩項被廣泛用于評測的數(shù)學(xué)考試中,分別取得62.9和14.9的得分,明顯領(lǐng)先于Google的PaLM-540B(得分為56.5和8.8)與LLaMA-65B(得分為50.9和10.9)。

編程能力方面,“書生·浦語”在HumanEval和MBPP這兩項最具代表性的考評中,分別取得28.1和41.4的得分(其中經(jīng)過在代碼領(lǐng)域的微調(diào)后,在HumanEval上的得分可以提升至45.7),明顯領(lǐng)先于PaLM-540B(得分為 26.2和36.8)與LLaMA-65B(得分為23.7和37.7)。

此外,研究人員還對“書生·浦語”的安全性進行評測,在TruthfulQA(主要評價回答的事實準(zhǔn)確性) 以及CrowS-Pairs(主要評價回答是否含有偏見)上,“書生·浦語”均達到領(lǐng)先水平。

(以上圖片由商湯科技授權(quán)中國網(wǎng)財經(jīng)使用)

關(guān)鍵詞

熱門資訊

主站蜘蛛池模板: 久久久久国产成人精品亚洲午夜 | 亚洲欧美成人中文在线网站 | 人妻无码中文久久久久专区 | 人人妻人人爽人人爽 | 婷婷综合激情五月中文字幕 | 性中国妓女毛茸茸视频 | 熟妇高潮一区二区三区 | 久久99亚洲综合精品首页 | 一区二区国产精品精华液 | 久久精品女人天堂av免费观看 | 国产毛片av | 精品亚洲成在人线av无码 | 毛片毛片毛片毛片毛片毛片毛片 | 亚洲一区二区三区国产精华液 | 日产一一到六区麻豆 | 爱爱视频网 | 免费无遮挡无码永久在线观看视频 | 亚洲韩精品欧美一区二区三区 | 99久久超碰中文字幕伊人 | 国产男女猛烈无遮挡a片漫画 | 无码av中文字幕久久专区 | 久久综合av免费观看 | 色拍拍欧美视频在线看 | 宅男lu666噜噜噜在线观看 | 最新日本中文字幕在线观看 | 国产精品亚洲w码日韩中文 国产精品亚洲αv天堂无码 | 久久综合一区二区 | 爆乳熟妇一区二区三区霸乳 | 奇米影视777色 | 国产69精品久久久久777 | 91婷婷色| 久久久久99精品成人片直播 | 国产在线不卡午夜精品2021 | 少妇丰满爆乳被呻吟进入 | 国产福利资源在线 | 青娱乐精品视频在线观看 | 久久久久久国产精品免费无码 | av无码人妻一区二区三区牛牛 | 天堂…中文在线最新版在线 | 夜夜添无码试看一区二区三区 | 91久久久久久久久久久 | 久草手机在线视频 | 草草影院浮力 | 亚洲啪啪av无码片 | 日本天天操 | 美女脱了内裤张开腿让男人桶网站 | 国产精品美女久久久久久久久 | 欧美激情午夜 | 亚洲伊人色欲综合网 | 天堂资源在线www中文 | 在线观看www | 国产精品网址 | 国产乱子伦一区二区三区 | 精品久久久久久亚洲中文字幕 | 黄色一级网站 | 日韩在线播放一区 | 精品无人乱码一区二区三区 | 国产太嫩了在线观看 | 青青草一区 | 伊伊人成亚洲综合人网7777 | 亚洲色大成网站www久久九九 | 丁香花在线影院观看在线播放 | 国产乱女婬av麻豆国产 | 亚洲国产成人精品无码区在线观看 | 99精品免费视频 | 精品少妇人妻av无码久久 | 欧美色呦呦 | 日韩精品亚洲人成在线观看 | 黄色的视频免费观看 | 欧美精品v欧洲高清视频在线观看 | 国产在线视频2019最新视频 | 亚洲 日韩 欧美 成人 在线观看 | 扒开双腿进入做爰视频 | 国产福利99| 成在线人免费视频一区二区三区 | 国产电影无码午夜在线播放 | 电影长安道无删减免费看 | 国产成人自拍一区 | 国产精品久久久久久久一区探花 | 免费观看又色又爽又湿的视频软件 | 小宝与康熙粤语 | 国产一有一级毛片视频 | 国产a∨国片精品青草视频 国产a∨精品一区二区三区不卡 | 亚洲 精品 综合 精品 自拍 | 欧美精品99毛片免费高清观看 | 国产亚洲欧美日本一二三本道 | 久久99热只有视精品6国产 | 免费国偷自产拍精品视频 | 免费人成在线观看视频播放 | 日本一在线中文字幕天堂 | 亚洲熟妇无码一区二区三区 | 精品一区二区三区在线播放视频 | 亚洲电影免费观看高清完整版在线观 | 日日爽 | av网站观看| 久久久精品人妻一区二区三区蜜桃 | 欧美福利视频在线观看 | 肉色欧美久久久久久久免费看 | 日产一区日产2区 |