欧美爱爱视频免费看_538在线视频观看_日本人69视频_男人操女人逼免费视频_国产精品三级一区二区_日韩国产成人无码av毛片_99九九99九九九99九他书对_久草在在线视频_中文字幕剧情在线观看_午夜免费一级片_久久撸在线视频_在线观看免费不卡av

首頁 > 創作內容 > 創作內容 > 科學家用STEM數據集評測神經網絡模型基礎,加快人工智能實現進程

科學家用STEM數據集評測神經網絡模型基礎,加快人工智能實現進程

發布時間:2024-05-01 15:08:46

理工科 STEM 技能,是解決真實世界中諸多問題的基礎。譬如,探索蛋白質結構、證明數學定理、發現新藥物等。(編者注:STEM,即科學、技術、工程和數學四門學科英文首字母的縮寫。)

 

而對于人工智能領域來說,理解視覺-文本的多模態信息,則是掌握 STEM 技能的關鍵。

 

可是,現有的數據集主要集中在檢驗模型解決專家級別難題的能力上,難以反映模型在基礎知識方面的掌握情況。并且,其往往只考慮文本信息而忽略視覺信息,又或者只關注 STEM 中某單一學科的能力。

 

另外,由于缺少細粒度的信息,該領域的科學家也無法更好地分析與改進神經網絡模型存在的薄弱之處。

 

所以,模型在這種情況下生成的內容,既無法讓人充分信任,又不能幫助指導未來模型開發的方向。

 

更重要的是,由于缺乏和人類表現相關的數據,因此科學家也不可能獲取到更具實際意義的模型表現參考,嚴重阻礙了人工智能的健康發展。

 

為了攻克上述局限性,近期,來自北京大學和美國圣路易斯華盛頓大學的研究團隊,不僅成功完成了首個多模態 STEM 數據集的構建,還在此基礎上實現對大語言模型與多模態基礎模型的評測。

 

結果發現,即使是目前最先進的人工智能模型,其 STEM 基礎水平也存在較大的提升空間,尚不具備解決更有難度的現實問題的能力。也就是說,與人類智能相比,目前人工智能的水平還有一定差距。

 

 

圖丨綜合評測效果(來源:ICLR 2024)

 

近日,相關論文以《測量神經網絡模型的視覺-語言理工科技能》(Measuring Vision-Language STEM Skills of Neural Models)為題收錄于 2024 國際表征學習大會(ICLR 2024,International Conference on Learning Representations 2024)上[1]。

 

據悉,該會議將于今年 5 月 7 日至 5 月 11 日在奧地利的首都維也納召開。

 

STEM 數據集相關資源如下。

 

評測鏈接:
https://huggingface.co/spaces/stemdataset/stem-leaderboard

數據集頁面:
https://huggingface.co/datasets/stemdataset/STEM

代碼 GitHub:
https://github.com/stemdataset/STEM

 

北京大學博士研究生沈劍豪和袁野是共同第一作者,圣路易斯華盛頓大學王晨光助理教授和北京大學張銘教授擔任共同通訊作者。王晨光助理教授博士畢業于北京大學,導師是張銘教授。

 

圖丨相關論文(來源:ICLR 2024)

 

 

搭建 STEM 數據集,全方位評測神經網絡模型的基礎理工科能力

 

據王晨光介紹,課題組在確定研究目標和題目之后,便開始著手收集數據。

 

一向擅長于算法研究的團隊成員,在面對爬蟲編寫、數據清洗和去重等工作時不免有些犯難。盡管如此,他們還是迎難而上,設計了多種用于數據清洗和去重的規則,最終成功獲得了首個多模態 STEM 數據集。

 

圖丨左起;王晨光、張銘、沈劍豪、袁野、Srbuhi Mirzoyan(來源:課題組)

 

值得一提的是,該數據集包含 448 個 STEM 技能,共 1073146 道題目,是目前涵蓋面最廣、包含題目最多的多模態 STEM 題目數據集。

 

圖丨相關論文(來源:ICLR 2024)

 

接著,他們開始針對數據集進行評測與分析。

 

由于該數據集包含科目(科學、技術、工程、數學)、技能和年級三個維度標簽,因此研究人員選擇從這三個維度切入,對每個維度的數據數量分布、問題類型分布、問題長度分布等信息進行了詳盡分析。

 

與此同時,他們也針對每個科目,按照 6:2:2 的比例,劃分了訓練集、驗證集與未公開標簽的測試集。

 

隨后,研究人員又設計了模型評測方案。

 

其中,在選擇評測指標時,他們除了關注準確率,還重點使用全球范圍內最被認可的在線習題網站之一(https://www.ixl.com/)的考試分數。

 

后者是基于該網站千萬用戶的真實考試成績得出的,與學生對知識的掌握程度呈正相關。當分數達到 90 以上(通常是小學生水平)時,就代表學生掌握了該技能。

 

“我們讓模型模仿考生在線答題,再將得到的考試分數與真實人類的考試結果進行比較。”王晨光表示。

 

這也正是該工作的一大亮點。原因在于,過去將人類的表現與人工智能做比較時,前者都是由相對較小的樣本(例如幾百到幾千人)總結出的,而該團隊的結果卻是基于千萬量級的數據得到的,可信度更高。

 

然后,在模型評測環節,研究人員選擇使用當前主流的大基礎模型,包括 OpenAI 的多模態 CLIP 模型,以及大語言模型 ChatGPT 的 GPT3.5-Turbo 版本。

 

前者根據模型判斷問題選項與圖片的匹配程度來做出選擇,后者則利用字幕模型為圖片生成描述,并利用語言模型選擇回答。

 

“我們評測了不同規模的 CLIP 模型與 GPT3.5-Turbo 模型,發現在 0 樣本的設置下,模型的錯誤率很高。這表明現有模型無法直接真正地掌握這些知識。”王晨光表示。

 

進一步地,他們又利用劃分出的訓練數據集,對 CLIP 模型進行了微調,發現微調后的模型取得了顯著的效果提升,綜合準確率從 54.4% 提升至 76.3%。不過,這離 90 分依然有一定差距。

 

除此之外,該課題組還對模型結果的各個側面進行了分析。

 

具體來說,首先,在年級層面,他們發現模型的測驗分數隨著題目所屬年級的升高而降低,這符合年級越高的題目難度就越高的預期。

 

圖丨測驗分數隨年級變化(來源:ICLR 2024)

 

其次,通過模型在不同技能上的評測表現,他們發現模型在抽象知識與復雜推理任務上的表現欠佳。

 

另外,過去的經驗表明,模型應該對正確答案有著較高的預測置信度,這代表著模型的校準度較好。

 

“我們發現在我們的數據集上微調過的模型,表現出了良好的校準性,模型的置信度與準確率呈現清晰的相關性。”王晨光說。

 

另一方面,他們在研究模型規模與效果之間關系的過程中,也發現了清晰的正相關關系。

 

與此同時,他們還分析了模型表現與問題長度、問題類型、選項數量等其它因素之間的關系,發現隨著問題變長、選項數量變多和樣例數量變少,模型的表現都會下降。

 

除此之外,他們也評估了準確率與測驗考試分數這兩種指標的相關性,發現它們同樣呈現出顯著的正相關。

 

“最終,在整體的評價指標上,我們確認即使是微調過的模型,與人類對應年級學生水平相比也有顯著差距。基于此,我們仍然需要尋找更有效的方法,使模型掌握 STEM 知識技能。”王晨光說。

 

圖丨與人類表現比較(來源:ICLR 2024)

 

 

嘗試推出更多評測大語言模型的數據集,加快通用人工智能實現的進程

 

顯而易見,在該項研究中,STEM 數據集發揮了關鍵作用。

 

它不僅有利于模型增強 STEM 的基礎知識,還能幫助研究人員評估模型對于基礎 STEM 技能掌握的程度,并通過細粒度的數據分析有針對性地改進模型。

 

王晨光表示,他和團隊期待該數據集可以進一步推動當前多模態大模型的研究,朝著模型能夠充分理解 STEM 技能、解決真實場景下 STEM 問題的目標更進一步。

 

并且,也希望發布的測試集可以作為評測人工智能基礎模型能力的標準評測之一,得到社區的廣泛使用。

 

“更重要的是,我們提供的與大規模人類(主要是小學生)真實水平的比較,可以作為未來模型開發的目標和參考,以加快通用人工智能目標實現的進程。”他說。

 

目前,基于該數據集,該課題組已經成功評測了神經網絡模型在基礎教育中的理工科能力。

 

接下來,他們一方面計劃繼續收集數據,并嘗試推出諸如人文學科、社會學科等領域的數據集,以更好地評測大語言模型在其他關鍵學科上的能力。

 

在這方面值得關注的是,該團隊最近已經提出了一個新的社會學科數據集 Social,包含較大規模的文本評估數據,可用來評測大語言模型的社會學科基礎能力。

 

進一步地,還設計了一種多智能體交互的方法,能夠增強大語言模型在 Social 數據集上的表現。

 

相關論文以《衡量大語言模型的社會規范》(Measuring Social Norms of Large Language Models)為題收錄于計算語言學協會北美分會 2024 年年會(NAACL 2024,2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics)上[2]。

 

據悉,該會議將于今年 6 月 16 日至 6 月 21 日在墨西哥的首都墨西哥城召開。

 

另一方面,他們也打算通過研究模型在細粒度數據集上的表現,找出模型能力不足的部分,并研究如何改進。

 

此外,還希望通過結合檢索的 RAG 方法、設計特殊的模型架構和訓練方法,來進一步增強模型的基礎能力。

 

“我們相信,只有先在基礎理工科和文科領域實現突破,扎實打好基礎,人工智能才有被進一步應用的可能性。”王晨光如是說。

創作內容更多>>

導遠科技車規級MEMS IMU芯片獲自主可控認定,實現工業化交付 宇樹科技CEO王興興:下半年將發布身高1.8米的人形機器人 蓋世汽車CEO周曉鶯出任安亭鎮商會汽車產業鏈專委會組長 林肯汽車領航員采用2-2-3座艙布局,踐行“七座皆上賓”的理念。首排“領航”坐席成功實現舒適領航 國內的瞪羚企業除了整車企業外,在動力電池、智能網聯等相關產業鏈都涌現了一批領軍企業 雙線驅動的上汽奧迪,如何破解傳統豪華困局? 麗馳汽車年中盛會隆重召開,旗艦新品 V7Li 震撼登場! 靜態體驗全新蔚來ES8:配置看齊ET9、空間堪比L9,更智能的攬勝 17.99萬起售,純電續航200km,新款星海V9值得買嗎? Model YL賣33.9萬莫名其妙?特斯拉還是雞賊,這么看就恍然大悟了 對話上汽大通:星棧平臺首創“一車六動力” 要讓皮卡既有面子又有里子 BJ80月銷1輛背后:北汽反腐風暴難掩產品空心化,王昊的“越野世家”保衛戰 新款比亞迪海豹 07 DM-i 亮相!網友:續航要被風云 A9L 按在地上打 蔚來新 ES8 發布:整車預售41.68萬元起,神璣芯片+NT3.0平臺加持 鴻蒙智行享界S9T首批展車進店,52城83個商圈開啟巡展 消息稱奧爾特曼淡出OpenAI日常管理,聚焦“搞錢”和腦機接口 REDMI Note 15系列發布:999元起,Pro+版首搭衛星通訊功能 2025適馬新品發布會定檔9月9日,有望首發20-200mm天涯鏡 科大訊飛2025上半年營收同比增長17.01%,歸母凈虧損2.39億 特斯拉大模型“上車”細節曝光:語音助手接入豆包與DeepSeek 計劃有變:鴻蒙智行全新問界M7汽車9月4日開啟小訂 為何vivo做了頭顯,小米卻選擇AI眼鏡 比亞迪新一代“小白樁”:“靈充”汽車充電樁發布 捷途山海L7 PLUS預售限時權益價12.99萬起 山海L7 PLUS預售限時12.99萬起 七大同級唯一、號稱“旅行小房車” 幸好,蘭博基尼還要生產V12很久很久 福特發布全新Mustang GTD Liquid Carbon,全碳車身要多帥有多帥 新一代智己LS6:沒有短板的“新王炸”,鄭州展廳被“攻陷” 不到25萬買路虎攬勝極光 煤老板座駕為何跌落神壇? 全新嵐圖知音,改款像換代!配ADS4乾崑智駕
欧美爱爱视频免费看_538在线视频观看_日本人69视频_男人操女人逼免费视频_国产精品三级一区二区_日韩国产成人无码av毛片_99九九99九九九99九他书对_久草在在线视频_中文字幕剧情在线观看_午夜免费一级片_久久撸在线视频_在线观看免费不卡av
国模私拍视频在线观看| 日韩av播放器| 亚洲国产精品久久久久婷蜜芽| 五月天视频在线观看| 99草草国产熟女视频在线| 草草久久久无码国产专区| 欧美视频在线第一页| 国产又爽又黄ai换脸| www.欧美激情.com| 一区二区久久精品| 在线视频日韩欧美| 黄色高清视频网站| 青春草在线视频免费观看| 一区二区三区日韩视频| 中文字幕在线视频一区二区| 亚洲制服中文字幕| 欧美性受黑人性爽| 国产在线视频在线| 国产精品国产三级国产专区51| 日韩精品第1页| 国产一区二区三区在线免费| 黄色片免费在线观看视频| 97碰在线视频| 国产96在线 | 亚洲| 国产精品宾馆在线精品酒店| 久草综合在线观看| 男女污污视频网站| 成人午夜免费在线视频| 日韩av高清在线看片| 97xxxxx| youjizzxxxx18| 中文字幕第66页| 小泽玛利亚av在线| 精品国产一二三四区| 免费av网址在线| wwwwww.色| 熟女视频一区二区三区| 成人免费在线网| 日本在线观看a| 久久久精品高清| 国产一区二区三区在线免费| 成人毛片视频网站| 波多野结衣家庭教师视频| 亚洲 欧美 另类人妖| 中文字幕精品在线播放| 少妇性饥渴无码a区免费| 一区二区免费av| 日韩精品免费一区| 免费在线观看毛片网站| 中文字幕日韩综合| 人妻少妇精品无码专区二区| 男女男精品视频站| 国产亚洲精品久久久久久久| 免费观看日韩毛片| 亚洲色图欧美自拍| 久久久一本二本三本| 午夜天堂在线视频| 内射国产内射夫妻免费频道| 手机av在线免费| av免费看网址| 不卡的在线视频| 九色自拍视频在线观看| 伊人成人222| 丰满少妇久久久| 高潮一区二区三区| 国产综合中文字幕| 国产在线视频三区| 日本va中文字幕| 无码人妻少妇伦在线电影| 色天使在线观看| 每日在线更新av| 影音先锋男人的网站| 久久久久久香蕉| 国产性生活免费视频| 视色视频在线观看| 久久精品xxx| 三级性生活视频| 成人中文字幕av| 男人添女人下部高潮视频在观看| 三级一区二区三区| 欧美私人情侣网站| 99久久99久久精品| 中文字幕第22页| 五月婷婷狠狠操| 欧美二区在线视频| 久久综合久久久久| 三日本三级少妇三级99| 精品www久久久久奶水| 免费看欧美黑人毛片| 一级黄色大片儿| 黄色手机在线视频| 日本三区在线观看| 久久久999免费视频| 2018中文字幕第一页| 国产一线二线三线女| 五月天av影院| 激情久久综合网| 国产三级三级看三级| 99视频在线免费| 国产成人久久777777| 一女被多男玩喷潮视频| 少妇久久久久久被弄到高潮| 波多野结衣免费观看| 日本美女视频一区| www.com黄色片| av网站在线不卡| caopor在线视频| 麻豆传传媒久久久爱| 99蜜桃臀久久久欧美精品网站| 国产婷婷一区二区三区| 欧美狂野激情性xxxx在线观| 在线观看av的网址| 成人在线免费观看网址| 97超碰免费观看| 久久久久久久久影视| 亚洲av首页在线| 日本成人在线不卡| 亚洲色婷婷久久精品av蜜桃| 国产一二三四区在线观看| 色中文字幕在线观看| 日韩欧美中文在线视频| 日本三日本三级少妇三级66| 裸体裸乳免费看| 欧美日韩dvd| www.成年人视频| 成品人视频ww入口| 1024av视频| 日本女优爱爱视频| 天天干天天操天天玩| 污污视频网站在线| 裸体裸乳免费看| 蜜臀av色欲a片无码精品一区| 国产精品333| 久草在在线视频| 老司机久久精品| 九一免费在线观看| 欧美人成在线观看| 日韩免费毛片视频| www.亚洲高清| 97超碰人人爱| 1024av视频| 国产成人黄色网址| 91免费网站视频| 国产成人艳妇aa视频在线| 国产无限制自拍| 情侣黄网站免费看| 看看黄色一级片| 欧美美女黄色网| 农村妇女精品一二区| 日韩av自拍偷拍| 免费看欧美黑人毛片| 国产免费视频传媒| 亚洲第一综合网站| 国内自拍在线观看| 伊人影院综合在线| 97超碰在线人人| 国产精品av免费观看| 国产又黄又大又粗视频| 五月激情五月婷婷| 日本中文字幕一级片| 亚洲人成色77777| 国产精品99久久久久久大便| 一二三四视频社区在线| 高潮一区二区三区| 欧美一级免费播放| 中文字幕国产免费| 国产免费黄色小视频| 在线能看的av网站| 国产乱子伦农村叉叉叉| 日韩视频在线观看一区二区三区| 国产3p露脸普通话对白| 手机免费av片| 日本韩国欧美在线观看| 亚洲一区二区偷拍| 北条麻妃在线一区| 久久观看最新视频| 冲田杏梨av在线| 国产高清av在线播放| 中文字幕精品一区二区三区在线| 亚洲人成无码网站久久99热国产| 在线观看免费视频高清游戏推荐| 久久亚洲国产成人精品无码区| 黄色免费网址大全| 搞av.com| 免费在线观看污污视频| 91av俱乐部| 国产精品久久久久7777| 三级黄色片免费看| 91香蕉视频导航| 国产欧美在线一区| 九一免费在线观看| 中文字幕丰满乱码| 日韩人妻精品无码一区二区三区| 中文字幕乱码免费| 国产高清视频网站| 国产精品97在线| 分分操这里只有精品| 看一级黄色录像| 成人av毛片在线观看| 久久精品网站视频|