ChatGPT是美國OpenAI公司去年11月發(fā)布的一款人工智能技術驅(qū)動的自然語言處理工具,去年11月30日推出以來,60天內(nèi)月活用戶直接破億,被認為是史上用戶增長最快的消費級應用。
寫代碼、文案,做數(shù)學題,進行不同語言之間的翻譯,ChatGPT的強大功能讓學習人工智能相關專業(yè)的復旦大學碩士研究生張嘯天感到既震驚又興奮。

“我主要讓它寫代碼,包括一些技術問題,解決方案。我感覺到它很聰明,篤定它可以通過圖靈測試。但它的極限是什么?我想知道它究竟有多聰明。”
于是,去年12月,張嘯天和兩位同學一起搜集了2010年到2022年的高考全國卷試題,剔除部分含有圖片的題目,讓ChatGPT作答。
經(jīng)過近5個月的測試,近日,ChatGPT的高考測試報告新鮮出爐。包括選擇題、填空題和問答題在內(nèi),ChatGPT共回答了2811道題目。結果顯示, ChatGPT更擅長文科,在歷史、地理、政治上取得了不錯的成績;而在生物、化學、物理等理科學科上表現(xiàn)不佳,尤其在物理上。

高考全國卷滿分為750分。復旦大學計算機科學技術學院碩士研究生宗一告訴看看新聞Knews記者,“綜合歷年得分情況,ChatGPT做文科卷的得分會更高一些,接近400分;理科題的話,只有300分出頭?!?。
對于ChatGPT“文強理弱”的偏科情況,該項目的負責人、復旦大學計算機科學技術學院教授邱錫鵬解釋說,與文科試題側(cè)重考察常識不同,理科試題更關注邏輯推理能力,這恰恰是目前通用人工智能模型的短板。
據(jù)悉,通過對超過1萬億個人類詞匯和1700億個模型參數(shù)進行高效迭代訓練,ChatGPT具備強大的自我學習、推理和歸納總結能力。既然如此,為何它的“高考”成績卻不太理想呢?
邱錫鵬認為,一方面是因為高考試題確實有難度;另一方面,測試成績與評價方式相關?!霸缙谖覀儾捎玫氖侨斯ぴu分,發(fā)現(xiàn)ChatGPT的水平大概可以達到500分?,F(xiàn)在我們使用了更嚴格的方式,也就是機器評分,所以成績有一定的波動?!?/p>

值得注意的是,此次測試的版本為ChatGPT-3.5。隨著該模型不斷升級迭代,它的能力會越來越強。此次測試除了了解ChatGPT的高考水平外,研究團隊還有一個更大膽的設想。
“我們構造一個數(shù)據(jù)集,這個數(shù)據(jù)集可以用來衡量不同大型語言模型的效果。因為現(xiàn)在不同的公司、單位、機構都在做自己的大模型,那么就是說我們就要有一個客觀的評價標準。大家都說自己的模型水平可以達到ChatGPT的百分之七八十,到底怎么樣,需要有一個客觀的測試。我認為高考評測是比較客觀綜合的一種測試方式?!鼻皴a鵬表示,未來該數(shù)據(jù)集將大有可為。
(看看新聞Knews記者:周智敏 徐瑋)

劍網(wǎng)行動舉報電話:12318(市文化執(zhí)法總隊)、021-64334547(市版權局)
Copyright ? 2016 Kankanews.com Inc. All Rights Reserved. 看東方(上海)傳媒有限公司 版權所有

全部評論
暫無評論,快來發(fā)表你的評論吧