彩果考試網(wǎng)

我們只做你需要的

加入Q群

官方微博

^CaiGuoJiaoYu

精品題庫

讀書改變生活，精品有聲讀物，免費領(lǐng)取領(lǐng)取
2023年合肥高新區(qū)管委會招聘筆試題庫下載
《申論考前必背手冊》完整版下載
全國各省市地區(qū)輔警招聘面試題庫下載
2023年上海公檢法院及出入境輔助崗位招聘筆試題庫下載

熱點關(guān)注

廣告招商中

AI考公考編指日可待，微軟華人團隊發(fā)布全新基準AGIEval，專為人類考試而生

2023-05-13 23:35:00閱讀()互聯(lián)網(wǎng)

讓AI參加法考、高考、公務(wù)員考試的話，能拿幾個offer?

隨著語言模型的能力越來越強，現(xiàn)有的這些評估基準實在有點小兒科了，有些任務(wù)的性能都甩了人類一截。

通用人工智能(AGI)的一個重要特點是模型具有處理人類水平任務(wù)的泛化能力，而依賴于人工數(shù)據(jù)集的傳統(tǒng)基準測試并不能準確表示人類的能力。

最近，微軟的研究人員發(fā)布了一個全新基準AGIEval，專門用于評估基礎(chǔ)模型在「以人為本」(human-centric)的標準化考試中，如高考、公務(wù)員考試、法學院入學考試、數(shù)學競賽和律師資格考試中的表現(xiàn)。

論文鏈接：https://arxiv.org/pdf/2304.06364.pdf

數(shù)據(jù)鏈接：https://github.com/microsoft/AGIEval

研究人員使用AGIEval基準評估了三個最先進的基礎(chǔ)模型，包括GPT-4、ChatGPT和Text-Davinci-003，實驗結(jié)果發(fā)現(xiàn)GPT-4在SAT、LSAT和數(shù)學競賽中的成績超過了人類平均水平，SAT數(shù)學考試的準確率達到了95%，中國高考英語考試的準確率達到了92.5%，表明了目前基礎(chǔ)模型的非凡表現(xiàn)。

但GPT-4在需要復雜推理或特定領(lǐng)域知識的任務(wù)中不太熟練，文中對模型能力(理解、知識、推理和計算)的全面分析揭示了這些模型的優(yōu)勢和局限性。

AGIEval數(shù)據(jù)集

近年來，大型基礎(chǔ)模型如GPT-4在各個領(lǐng)域已經(jīng)表現(xiàn)出非常強大的能力，可以輔助人類處理日常事件，甚至還能在法律、醫(yī)學和金融等專業(yè)領(lǐng)域提供決策建議。

也就是說，人工智能系統(tǒng)正逐步接近并實現(xiàn)通用人工智能(AGI)。

但隨著AI逐步融入日常生活，如何評估模型以人為本的泛化能力，識別潛在的缺陷，并確保它們能夠有效地處理復雜的、以人為本的任務(wù)，以及評估推理能力確保在不同環(huán)境下的可靠性和可信度是至關(guān)重要的。

研究人員構(gòu)造AGIEval數(shù)據(jù)集主要遵循兩個設(shè)計原則：

1.強調(diào)人腦級別的認知任務(wù)

設(shè)計「以人為本」的主要目標是以與人類認知和解決問題密切相關(guān)的任務(wù)為中心，并以一種更有意義和全面的方式評估基礎(chǔ)模型的泛化能力。

為了實現(xiàn)這一目標，研究人員選擇了各種官方的、公開的、高標準的招生和資格考試，以滿足一般人類應(yīng)試者的需要，包括大學入學考試、法學院入學考試、數(shù)學考試、律師資格考試和國家公務(wù)員考試，每年都有數(shù)百萬尋求進入高等教育或新職業(yè)道路的人參加這些考試。

通過遵守這些官方認可的評估人類水平能力的標準，AGIEval可以確保對模型性能的評估與人類決策和認知能力直接相關(guān)。

2.與現(xiàn)實世界場景的相關(guān)性

通過選擇來自高標準的入學考試和資格考試的任務(wù)，可以確保評估結(jié)果能夠反映個人在不同領(lǐng)域和背景下經(jīng)常遇到的挑戰(zhàn)的復雜性和實用性。

這種方法不僅可以衡量模型在人類認知能力方面的表現(xiàn)，而且可以更好地了解在現(xiàn)實生活中的適用性和有效性，即有助于開發(fā)出更可靠、更實用、更適合于解決廣泛的現(xiàn)實世界問題的人工智能系統(tǒng)。

根據(jù)上述設(shè)計原則，研究人員選擇了多種標準化的高質(zhì)量考試，強調(diào)人類水平的推理和現(xiàn)實世界的相關(guān)性，具體包括：

1.普通高校入學考試

大學入學考試包含各種科目，需要批判性思維、解決問題和分析能力，是評估大型語言模型與人類認知相關(guān)性能的理想選擇。

具體包括研究生入學考試(GRE)，學術(shù)評估考試(SAT)和中國高考(Gaokao)，可以評估尋求進入高等教育機構(gòu)的學生的一般能力和特定學科知識。

數(shù)據(jù)集中收集了與中國高考8個科目對應(yīng)的考試：歷史、數(shù)學、英語、中文、地理、生物、化學和物理;從GRE中選擇數(shù)學題;從SAT中選擇英語和數(shù)學科目來構(gòu)建基準數(shù)據(jù)集。

2.法學院入學考試

法學院入學考試，如LSAT，旨在衡量未來的法律學生的推理和分析能力，考試內(nèi)容包括邏輯推理、閱讀理解和分析推理等部分，需要應(yīng)試者分析復雜信息和得出準確結(jié)論的能力，這些任務(wù)可以評估語言模型在法律推理和分析方面的能力。

3.律師資格考試

可以評估追求法律職業(yè)的個人的法律知識、分析能力和道德理解，考試內(nèi)容涵蓋了廣泛的法律主題，包括憲法、合同法、刑法和財產(chǎn)法，并要求考生展示他們有效應(yīng)用法律原則和推理的能力，可以在專業(yè)法律知識和道德判斷的背景下評估語言模型的表現(xiàn)。

4.研究生管理入學考試(GMAT)

GMAT是一個標準化的考試，可以評估未來商學院研究生的分析、定量、言語和綜合推理能力，由分析性寫作評估、綜合推理、定量推理和言語推理等部分組成，評估應(yīng)試者的批判性思考、分析數(shù)據(jù)和有效溝通的能力。

5.高中數(shù)學競賽

這些比賽涵蓋了廣泛的數(shù)學主題，包括數(shù)論、代數(shù)、幾何和組合學，并且經(jīng)常出現(xiàn)一些非常規(guī)的問題，需要用創(chuàng)造性的方法來解決。

具體包括美國數(shù)學競賽(AMC)和美國數(shù)學邀請考試(AIME)，可以測試學生的數(shù)學能力、創(chuàng)造力和解決問題的能力，能夠進一步評估語言模型處理復雜和創(chuàng)造性數(shù)學問題的能力，以及模型生成新穎解決方案的能力。

6.國內(nèi)公務(wù)員考試

可以評估尋求進入公務(wù)員隊伍的個人的能力和技能，考試內(nèi)容包括評估一般知識、推理能力、語言技能，以及與中國各種公務(wù)員職位的角色和職責有關(guān)的特定科目的專業(yè)知識，可以衡量語言模型在公共管理背景下的表現(xiàn)，以及他們對政策制定、決策和公共服務(wù)提供過程的潛力。

評估結(jié)果

選擇的模型包括：

ChatGPT，由OpenAI開發(fā)的對話式人工智能模型，可以參與用戶互動和動態(tài)對話，使用龐大的指令數(shù)據(jù)集進行訓練，并通過強化學習與人類反饋(RLHF)進一步調(diào)整，使其能夠提供與人類期望相一致的上下文相關(guān)和連貫的回復。

GPT-4，作為第四代GPT模型，包含范圍更廣的知識庫，在許多應(yīng)用場景中都表現(xiàn)出人類水平的性能。GPT-4利用對抗性測試和ChatGPT進行了反復調(diào)整，從而在事實性、可引導性和對規(guī)則的遵守方面有了明顯的改進。

Text-Davinci-003是GPT-3和GPT-4之間的一個中間版本，通過指令微調(diào)后比GPT-3的性能更好。

除此之外，實驗中還報告了人類應(yīng)試者的平均成績和最高成績，作為每個任務(wù)的人類水平界限，但并不能完全代表人類可能擁有的技能和知識范圍。

Zero-shot/Few-shot評估

在零樣本的設(shè)置下，模型直接對問題進行評估;在少樣本任務(wù)中，在對測試樣本進行評估之前，先輸入同一任務(wù)中的少量例子(如5個)。

為了進一步測試模型的推理能力，實驗中還引入思維鏈(CoT)提示，即先輸入提示「Let’sthinkstepbystep」為給定的問題生成解釋，然后輸入提示「Explanationis」根據(jù)解釋生成最終的答案。

基準中的「多選題」使用標準分類準確率;「填空題」使用精確匹配(EM)和F1指標。

從實驗結(jié)果中可以發(fā)現(xiàn)：

1.GPT-4在所有任務(wù)設(shè)置下都明顯優(yōu)于其同類產(chǎn)品，其中在Gaokao-English上更是取得了93.8%的準確率，在SAT-MATH上取得了95%的準確率，表明GPT-4在處理以人為本的任務(wù)方面具有卓越的通用能力。

2.ChatGPT在需要外部知識的任務(wù)中明顯優(yōu)于Text-Davinci-003，例如涉及地理、生物、化學、物理和數(shù)學的任務(wù)，表明ChatGPT擁有更強大的知識基礎(chǔ)，能夠更好地處理那些需要對特定領(lǐng)域有深刻理解的任務(wù)。

另一方面，ChatGPT在所有評估設(shè)置中，在需要純粹理解和不嚴重依賴外部知識的任務(wù)中，如英語和LSAT任務(wù)，略微優(yōu)于Text-Davinci-003，或取得相當?shù)慕Y(jié)果。這一觀察結(jié)果意味著，這兩個模型都能夠處理以語言理解和邏輯推理為中心的任務(wù)，而不需要專門的領(lǐng)域知識。

3.盡管這些模型的總體表現(xiàn)不錯，但所有的語言模型都在復雜的推理任務(wù)中表現(xiàn)不佳，比如MATH、LSAT-AR、GK-physics和GK-Math，突出了這些模型在處理需要高級推理和解決問題技能的任務(wù)方面的局限性。

觀察到的處理復雜推理問題的困難為未來的研究和開發(fā)提供了機會，目的是提高模型的一般推理能力。

4.與zero-shot學習相比，few-shot學習通常只能帶來有限的性能改善，表明目前大型語言模型的zero-shot學習能力正在接近few-shot學習能力，也標志著與最初的GPT-3模型相比有了很大的進步，當時few-shot性能要比zero-shot好得多。

對這一發(fā)展的一個合理解釋是，在目前的語言模型中加強了人類的調(diào)整和指令的調(diào)整，這些改進使模型能夠提前更好地理解任務(wù)的含義和背景，從而使它們即使在zero-shot的情況下也能有良好的表現(xiàn)，證明了指令的有效性。

參考資料：

https://arxiv.org/pdf/2304.06364.pdf

點擊展開全文∨

掃一掃，手機繼續(xù)看

特別聲明：文章多為招考官網(wǎng)轉(zhuǎn)載，如有侵權(quán)請聯(lián)系！
部分數(shù)據(jù)為彩果考試網(wǎng)(www.niveuso.com)收集整理，轉(zhuǎn)載或復制請注明出處！-彩果考試網(wǎng)-

上一篇：今年起，不再發(fā)放就業(yè)報到證

下一篇：廣東擬開發(fā)“媽媽崗”

AI考公考編指日可待，微軟華人團隊發(fā)布全新基準AGIEval，專為人類考試而生

AI考公考編指日可待，微軟華人團隊發(fā)布全新基準AGIEval，專為人類考試而生