(資料圖)
ChatGPT是一款由美國OpenAI公司開發的自然語言人機交互應用,擁有接近人類水平的語言理解和生成能力,是迄今為止人工智能領域最成功的產品和歷史上用戶增長速度最快的應用程序。ChatGPT依賴大模型、大數據、大算力支撐,其出現標志著通用人工智能的起點和強人工智能的拐點,是里程碑式的技術進步,將引發新一輪人工智能革命。
國內人工智能“大模型”已具備一定基礎,但與ChatGPT還存在一定差距,其背后面臨數據、算力和創新環境等深層次制約。需從戰略高度重視ChatGPT引發的新一輪人工智能革命,瞄準大模型、整合大數據、布局大算力,實施包容審慎監管,為新事物發展留足空間,加快搶占未來科技競爭制高點。
ChatGPT具有里程碑意義
將引發新一輪人工智能革命
ChatGPT (Chat Generative Pre-trained Transformer,聊天生成型預訓練轉換模型) 是一款由美國OpenAI公司開發的自然語言人機交互應用,擁有接近人類水平的語言理解和生成能力,因其出色的回答問題、創作內容、編寫代碼等能力,使得人們直觀真切地體會到人工智能技術進步帶來的巨大變革和效率提升,上線5天用戶突破100萬,兩個月活躍用戶突破1億,是迄今為止人工智能領域最成功的產品和歷史上用戶增長速度最快的應用程序。 ChatGPT是一個經過長期技術儲備、通過大量資源投入、帶有一定成功偶然性的人工智能“核爆點”。 ChatGPT的發展經歷了3個階段 (如下圖所示) ,前期GPT-1 (2018年) 、GPT-2 (2019年) 、GPT-3 (2020年) 等版本已經投入了大量資源 (包括購買高性能芯片、雇傭數據標注人員、占用計算資源等) ,效果并不理想,后期在采用“基于強化學習的人類反饋學習”技術后發生“蝶變”,迅速成為爆款應用。 圖ChatGPT發展路徑 ChatGPT關鍵在于“三大支撐”。 一是“大模型” 。全稱是“大語言模型” (Large Language Model) ,指參數量龐大 (目前規模達千億級) 、使用大規模語料庫進行訓練的自然語言處理模型,是ChatGPT的“靈魂”。 二是“大數據” 。GPT-1使用了約7000本書籍訓練語言模型。GPT-2收集了Reddit平臺 (美國第五大網站,功能類似于國內的百度貼吧) 800多萬個文檔的40GB文本數據。GPT-3使用維基百科等眾多資料庫的高質量文本數據,數據量達到45TB,是GPT-2的1150倍。 三是“大算力” 。以GPT-3為例,其參數量達1750億,采用1萬顆英偉達V100 GPU組成的高性能網絡集群,單次訓練用時14.8天,總算力消耗約為3640PF-days (假如每秒進行一千萬億次計算,需要3640天) 。 ChatGPT標志著里程碑式的技術進步。 一是在最具挑戰性的自然語言處理領域實現了革命性突破。 相比視頻、圖像、語音等,自然語言的語法、語義、邏輯復雜,存在多樣性、多義性、歧義性等特點。文本數據稀缺,通常表現為非結構化的低質量數據。自然語言處理任務種類繁多,包括語言翻譯、問答系統、文本生成、情感分析等。因此,長期以來自然語言處理被認為是人工智能最具挑戰性的領域。ChatGPT不僅實現了高質量的自然語言理解和生成,并且能夠進行零樣本學習和多語言處理,為自然語言處理領域帶來了前所未有的突破。 二是標志著通用人工智能的起點。 在此之前,人工智能在不同場景應用需要訓練不同模型。而ChatGPT利用單一大模型即可完成人機對話、機器翻譯、編碼測試等多種任務,已經具備通用人工智能的一些核心技術和特征:能夠自動化地學習各種知識、信息,不斷自我優化;充分理解和流暢表達人類語言,邏輯推理強,實現了具備一般人類智慧的機器智能;擁有一定的自適應和遷移學習能力,可以適用于多種應用場景和任務。 三是代表著強人工智能的拐點。 ChatGPT證明了大模型的學習和進化能力,將推動強人工智能 (機器擁有知覺和意識,有真正的推理和解決問題的能力) 加速演進。目前大模型智能程度已接近人類水平,甚至一些業界人士認為,將來會逐漸產生自我認知和感知,進而出現意識并且超越人類。 全球通用人工智能技術加速演進。ChatGPT涉及到“三大”中的“大模型”是核心和獨門秘籍。當前,隱藏在ChatGPT背后的“大模型”正越來越多進入人們的視野。 國際上已掀起從“大煉模型”到“煉大模型”的技術熱潮。 OpenAI公司將繼續推進ChatGPT的模型演進,目前已發布多模態預訓練大模型GPT-4,實現了幾個方面躍升:強大的圖像識別能力;文字輸入上限提升到2.5萬字;回答問題準確性明顯提高;可以生成創意文本、歌詞,實現風格變化等。谷歌創設了1370億參數級大型自然語言對話模型LaMDA。當前正加快推出基于LaMDA的聊天機器人Bard,并動員全公司開展內測。微軟與英偉達合作推出了5300億參數的MT-NLG模型,與兩家公司之前各自的系統相比,優點在于更加擅長各種自然語言任務,例如自動生成句子、問答、閱讀和推理、詞義消岐等。Meta公司復現了GPT-3,并對所有社區免費開放。以ChatGPT為代表的人工智能大模型滲透到各行各業,將引發新一輪人工智能革命。從本質上看,ChatGPT是一個“大模型” (參數量巨大的概率模型) ,其成功實踐充分證明了作為通用技術的大模型在人類社會各個方面布局應用的潛力。 一是成功探索了大模型的商業模式。 ChatGPT已經應用于商用搜索引擎和辦公軟件,嵌入GPT-3.5的微軟必應搜索引擎可以更好理解和響應用戶查詢,提供更準確的搜索結果,嵌入GPT-4的Office軟件大幅提升了辦公效率。 二是短期來看大模型將替代服務業的一些工作。 ChatGPT可以完成各類文本生成任務,替代行政管理人員、科研人員、法律行業人士、媒體從業者、客服人員的部分工作。能夠編碼、檢測安全漏洞,替代軟件工程師的一些工作。可以高質量完成語言間的轉換,替代翻譯人員的部分工作。 三是隨著大模型不斷滲透,人們的生產生活方式將發生深刻變革。 在不久的將來,廣泛開發應用的大模型將以超出人類的速度和準確性來執行自動化生產、智能制造任務,賦能交通、醫療、金融等各個行業。這將會引發以強人工智能和通用人工智能為代表的新一輪智能革命,大幅提高生產效率,帶來經濟、社會和產業的深刻變革。
表ChatGPT主要應用場景
我國人工智能“大模型”
現狀與面臨的問題
國內大模型已具備一定基礎,但與ChatGPT還存在一定差距。一是百度自主研發的“文心”大模型,參數規模達2600億,已在能源、金融、制造等領域發布了11個行業大模型。二是阿里達摩院推出10萬億參數的多模態M6大模型。三是華為與鵬城實驗室合作開發的盤古大模型,是首個全開源2000億參數中文預訓練語言模型,在知識問答、知識檢索、知識推理、閱讀理解等文本生成領域表現突出。四是北京智源人工智能研究院推出1.75萬億參數的悟道2.0,可以同時處理中英文和圖片數據。浪潮和中科院也分別推出了相應的大模型等。 從技術能力來看,專家判斷當前國內技術比ChatGPT主要差在大模型環節,包括清洗、標注、模型結構設計、訓練推理的技術積累。ChatGPT背后是文本/跨模態大模型、多輪對話、強化學習等多技術的融合創新,而國內大部分科技企業、科研院所多聚焦垂直應用,缺乏多技術融合創新能力。從落地應用來看,國內頭部企業均表示已開展相關技術研發或部分模型進入內測階段,但仍未出現與ChatGPT抗衡的大模型產品。加之大模型的訓練成本較高,技術應用面臨著億元級研發投入和海量訓練試錯,國內企業投入嚴重不足,研發推廣和產業落地整體落后于海外。 差距背后存在深層次制約因素,或使中美“大模型”差距進一步拉大,主要表現為三個“缺少”: 缺少高質量訓練數據。 GPT-3模型訓練需要的語料75%是英文,3%是中文,還有一些西班牙文、法文、德文等語料集,這些學習語料可通過公開數據 (如維基百科、百度百科、微博、知乎等) 、開源數據集、網頁爬取( 訓練GPT-3爬取了31億個網頁,約3000億詞) 、私有數據集 (如OpenAI的WebText數據集,收集了Reddit平臺上的800萬篇高贊文章,約150億詞) 等方式獲取。這些語料中,英文語料公開數據更多、質量更高。中文開源高質量數據少,特別是構建通用領域大模型的百科類、問答類、圖書文獻、學術論文、報紙雜志等高質量中文內容。同時,國內專業數據服務還處于起步階段,可用于人工智能模型訓練的經過加工、清洗、標注的高質量數據集還相對匱乏。缺少高質量訓練數據已成為國內大模型訓練的核心痛點。 缺少充足的智能算力支撐。 一是大模型訓練和運營算力成本高昂。訓練階段,目前業界測算ChatGPT訓練成本約為1000萬美元,為研發擁有部分ChatGPT能力的大模型,至少需要上千張A100訓練卡。運營階段,ChatGPT云計算成本每日約200萬美元。二是缺乏大規模并行計算工程能力。滿足大模型訓練的算力需求不僅需要數量巨大的高性能GPU,更需要面向人工智能高度優化的云計算平臺和相應的工程能力。三是采購國外先進GPU受限,國產算力尚未成熟到支撐大模型研發。國產智能芯片不僅在算力、帶寬等性能上同英偉達A100、H100芯片有差距 (這兩款都在美方對華禁售之列) ,支持自然語言處理和大模型訓練的算子庫也不夠成熟,國產替代仍有軟硬適配等技術問題尚待持續優化與解決。四是人工智能算力市場和服務市場“碎片化”加劇。全國多地主導建設近百個智算中心,形成一個個孤立破碎的人工智能算力和服務小市場,中國大市場優勢被消解。缺少適合大模型研發特點的機制。 一是力量分散。人工智能大模型具有長周期、重投入、高風險等特點。國內企業、高校在“大模型”“大數據”“大算力”等方面各有側重,研發力量分散,資源缺乏整合,沒有與OpenAI技術實力對標的企業。二是資金投入不足,企業受盈利壓力很難長期維持高投入。政府項目的支持力度與所需投入相比仍顯乏力,決策周期長。三是領軍人才和核心團隊缺乏。ChatGPT團隊共87人,絕大多數擁有世界名校學歷和知名企業工作經歷。而國內人工智能頂級人才分散在不同機構中,很難形成掌握核心技術并且有強大工程能力和項目經驗的領軍人物和團隊。
相關政策建議
人工智能大模型具有重要的戰略意義,是未來科技競爭的制高點,也是重要的智能基礎設施。需從戰略高度重視ChatGPT引發的新一輪人工智能革命,從算法、算力、數據等方面加快布局和突破,構建包容創新的監管環境,積極應對新一輪人工智能科技競爭。 一是瞄準通用人工智能“大模型”發力,加快推動大規模應用。 基于通用數據集的大模型是人工智能走向商業化應用落地的重要手段,將帶動新的產業和服務應用范式。建議加快自然語言處理、計算機視覺以及多模態大模型攻關。同時,在細分領域構筑優勢,進一步深耕垂直領域,從實際場景中積累行業數據和知識,加快孵化人臉識別、音頻生產、財務分析、法律服務、教育培訓等行業大模型,逐步完善模型架構、提升參數數量,推進應用落地。 二是整合“大數據”,聚焦打造專業數據服務。 訓練大模型需要優質的大數據集合,有些數據還需要人工標注。收集和清洗數據是一項耗時較長的基礎性工作,其質量直接決定模型的智能程度。建議加快推動數據資源整合共享和開發利用。ChatGPT的成功因素之一是擁有大量的優質訓練數據。我國具備海量數據和豐富應用場景,建議進一步促進圖書、期刊和傳統行業的優質數據開放,激發數據要素活力。制定政府公共數據資源開放清單,開展數據資源開放試點,優先開放高價值、低敏感、數據量大的民生公共數據,逐步開放公共數據庫、專業數據庫等。培育專業數據服務商,培育壯大數據采集、標注、清洗等服務產業。擴大優質數據供給,特別是加快推進歷年來中文圖書、紙質文獻等的數字化,搭建用于人工智能大模型訓練的優質數據集,擴大面向人工智能大模型的數據供給。 三是布局“大算力”,聚焦建立算力統一大市場。 充分發揮市場機制的作用,堅決遏制低水平、不可持續、缺乏商業閉環的智算中心盲目建設,避免算力市場和人工智能服務市場的碎片化。支持圍繞云計算建設的各類行業訓練數據集、人工智能訓練平臺,形成從理論模型創新、模型工程化到場景化服務的技術和商業閉環,構建統一、開放、有序的人工智能產業大生態。建立人工智能計算資源共享名錄,支持各省市超算中心、算力平臺、行業訓練數據集、人工智能訓練平臺等人工智能基礎設施資源開放共享。 四是支持以頭部企業為主體,推動形成人工智能“大模型”攻堅合力。 加大對頭部企業開展大模型核心技術攻關的支持力度,發揮重點企業和研究機構的數據、算力、算法和人才優勢,聯合產業鏈上下游企業、高校院所、新型研發機構,協同開展科研攻關,加快推出國產大模型拳頭產品。五是實施包容審慎的監管,為新生事物發展留足空間。 類ChatGPT產品作為新生事物,不可能十全十美,鼓勵發展是主旋律。ChatGPT初期也會不斷“犯錯誤”,但其自身也逐步建立了技術機制,針對內容、倫理等相關風險進行了過濾與阻斷,經過用戶反饋、專家機制優化迭代后逐步成熟完善。依托優良的網絡環境,豐富的內容治理經驗,以及完善的AI監管框架,我國完全具備對于以ChatGPT為代表的人工智能大模型技術治理自信。因此,面對可能出現倫理、數據、輿情等風險,要建立容錯機制,實行沙盒監管和敏捷治理,實現規范與發展的動態平衡。
關鍵詞:
責任編輯:Rex_23