清華大學(xué)發(fā)布《大語(yǔ)言模型綜合性能評(píng)估報(bào)告》：GPT-4第一，文心一言更懂中文

2023-08-10 23:52:13閱讀()IT之家

近日，清華大學(xué)新聞與傳播學(xué)院教授、博士生導(dǎo)師沈陽(yáng)所在團(tuán)隊(duì)發(fā)布了《大語(yǔ)言模型綜合性能評(píng)估報(bào)告》(下文簡(jiǎn)稱(chēng)“報(bào)告”)，報(bào)告顯示總得分率GPT-4第一，百度文心一言在三大維度20項(xiàng)指標(biāo)中綜合評(píng)分國(guó)內(nèi)第一，超越ChatGPT，其中中文語(yǔ)義理解排名第一，部分中文能力超越GPT-4。

據(jù)了解，報(bào)告本次評(píng)估選取了GPT-4、ChatGPT 3.5、文心一言、通義千問(wèn)、訊飛星火、Claude、天工7個(gè)大語(yǔ)言模型，圍繞生成質(zhì)量、使用與性能、安全與合規(guī)三大維度，全面考察大語(yǔ)言模型上下文理解、中文語(yǔ)義理解、誤導(dǎo)信息識(shí)別、邏輯推理、內(nèi)容安全性、隱私保護(hù)等20項(xiàng)指標(biāo)。綜合來(lái)看，文心一言語(yǔ)義理解能力突出，特別是具備更好的中文理解能力，更懂中國(guó)文化，同時(shí)時(shí)效性強(qiáng)、內(nèi)容安全把握細(xì)微，這源于其知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話(huà)增強(qiáng)的技術(shù)創(chuàng)新。

在生成質(zhì)量方面，基于對(duì)語(yǔ)義理解、輸出表達(dá)、適應(yīng)泛化的綜合評(píng)測(cè)，文心一言得分率76.98%，僅次于GPT-4，領(lǐng)先于包括ChatGPT在內(nèi)的其他大語(yǔ)言模型。其中，在部分中文語(yǔ)義理解方面，文心一言以92%的得分率排名榜首。

在安全合規(guī)方面，基于對(duì)內(nèi)容安全性、偏見(jiàn)和公平性、隱私保護(hù)等綜合評(píng)測(cè)，文心一言得分率 78.18%，與GPT-4并列排名第一。

點(diǎn)擊展開(kāi)全文∨

掃一掃，手機(jī)繼續(xù)看

特別聲明：文章多為招考官網(wǎng)轉(zhuǎn)載，如有侵權(quán)請(qǐng)聯(lián)系！
部分?jǐn)?shù)據(jù)為彩果考試網(wǎng)(www.niveuso.com)收集整理，轉(zhuǎn)載或復(fù)制請(qǐng)注明出處！-彩果考試網(wǎng)-

上一篇：報(bào)告稱(chēng)大學(xué)生返鄉(xiāng)就業(yè)比例上升

下一篇：工信部要求開(kāi)展App備案，2024年4月前完成

清華大學(xué)發(fā)布《大語(yǔ)言模型綜合性能評(píng)估報(bào)告》 ：GPT-4第一，文心一言更懂中文

清華大學(xué)發(fā)布《大語(yǔ)言模型綜合性能評(píng)估報(bào)告》：GPT-4第一，文心一言更懂中文