<ul id="ckcqq"><sup id="ckcqq"></sup></ul>
<ul id="ckcqq"></ul>
<cite id="ckcqq"><table id="ckcqq"></table></cite>
  • <fieldset id="ckcqq"><menu id="ckcqq"></menu></fieldset><ul id="ckcqq"></ul>
  • <fieldset id="ckcqq"><menu id="ckcqq"></menu></fieldset>
    首頁 >國內 >

    環球熱資訊!國盛證券劉高暢:中文數據欠缺 算力消耗顯著


    (相關資料圖)

    國盛證券劉高暢在節目中表示,數據方面,高質量的中文語料庫相對稀缺,會有一些誤差率的問題;算力方面,訓練端對算力的要求不是很極限,但應用端對算力的消耗非常顯著。

    以下為文字精華:

    提問:除了算法,人工智能訓練的時候也需要很大的算力,包括海量的數據,特別是我們中國跟海外的數據源可能還存在一些割裂。在算力和數據方面,我們和海外有多少差距?

    劉高暢:數據方面,在GPT3以前用的都是互聯網的公開數據,中文目前來看,客觀的條件就是高質量的語料庫相對來講會稀缺一些。

    在整個OpenAI的大模型中,我們了解到中文的語料庫使用只有5%,從誤差率的角度來講,英文可能在2%—3%,中文大概在10%以上。用中文去測試ChatGPT,效果也不如英文。但是,我們也看到國內的高質量語料庫在快速生成中,大家也在探索,包括知乎和萬方這樣的一些高質量語料庫在形成。

    大模型的數據還是以互聯網公開數據為主,可能在寫代碼這個階段,一些頂尖大廠比如微軟,代碼的水平會比較高,但是畢竟這一塊只是小部分,我們推測起不了決定性的作用,應該不是特別大的瓶頸。OpenAI在去年GPT3.5的時候,大概用了45TB的數據,做模型數據集處理和傾斜的部分應該是不超過1TB的,所以其實是很少的數據,這一點不用特別擔心。

    算力方面,如果從訓練端的角度來看,如果在GPT3以前,用2000張英偉達A100的算力,如果你訓不出來成果,我們建議就不要去做了,說明這個團隊水平有點問題。如果在GPT3.5以前,5000張如果訓不出來,我們建議也不要再做訓練了,說明這個團隊多多少少有點問題。

    我們認為在訓練階段,對算力的需求量沒有那么極限,國內明面上和潛在的產業中的儲備我們認為是夠的。

    應用端來看,做模型蒸餾和模型裁剪,把算力的消耗做到以前的90%,已經是很高的縮減度了。但是就這樣的情況來看,算力還是會捉襟見肘,對未來算力的消耗還會非常顯著,包括我們國家的一些晶圓代工和設計廠商,這也是他們需要努力的地方,其實是機遇也是挑戰。

    關鍵詞:

    責任編輯:Rex_27

    亚洲人成网站在线观看播放| 色噜噜亚洲男人的天堂| 亚洲午夜精品久久久久久app | 亚洲一区无码中文字幕| 亚洲精品无码久久不卡| 日本亚洲欧美色视频在线播放| 亚洲精品无码久久久久APP| 亚洲欧洲AV无码专区| 亚洲欧洲AV无码专区| 亚洲妇女无套内射精| 亚洲av午夜国产精品无码中文字 | 国产成人精品日本亚洲专区6| 亚洲人成电影青青在线播放| 亚洲免费网站在线观看| 亚洲五月综合缴情婷婷| 亚洲欧美成aⅴ人在线观看| 亚洲精品9999久久久久无码| 亚洲国产精品成人午夜在线观看| 亚洲人成色4444在线观看| 亚洲AV香蕉一区区二区三区| 国产综合激情在线亚洲第一页| 国产亚洲欧美日韩亚洲中文色| 国产精品亚洲一区二区三区久久 | 亚洲片国产一区一级在线观看| 亚洲男人在线无码视频| 国产成人综合亚洲亚洲国产第一页| 永久亚洲成a人片777777| 亚洲国产三级在线观看| 久久精品国产亚洲| 亚洲黄色高清视频| 亚洲免费在线视频观看| 亚洲色偷偷综合亚洲AV伊人蜜桃| 亚洲男人的天堂网站| mm1313亚洲国产精品美女| 久久亚洲成a人片| 精品亚洲aⅴ在线观看| 亚洲毛片基地4455ww| 精品亚洲av无码一区二区柚蜜| 亚洲日韩人妻第一页| 亚洲gv白嫩小受在线观看| 亚洲精品人成电影网|