“橘子……嘿嘿黑……”柚子傻笑了幾聲,笑聲裏充滿了感情。
方豫看了一眼柚子,從某種意義上說,這個大模型也能算是柚子的孩子了。
就是不知道這個孩子能成長到什麽程度?
橘子大模型的底層中,不隻由多重神經網絡組成,更隱含了柚子自身的簡化版架構法則,具有超過三億的參數,僅大模型本身規模,就超過10個g。
3億的參數,在周曆3061年的現在,是一個非常恐怖的規模。
deepmind幾個月前剛剛公布的deepqwork的參數量也不過才168萬。
而非死不可年中發布的深度學習麵部學習係統deepface,雖然沒有公布參數量,但按照推測,應該也不過是一千多萬參數的級別。
而三年前古狗發布的古狗大腦計劃,使用了一萬六千顆cpu進行訓練,號稱有10億參數,但其中無效參數和負作用參數比例超過百分之七十。
雖然也實現了視頻端的無監督學習,但訓練效果並不好。
但橘子大模型是不一樣的。
由於柚子是在自己本體中完成的橘子大模型的框架搭建,在奧術的輔助下,橘子大模型的三億參數中,無效參數和負作用參數基本能控製在10%以內!
可以說,剛剛誕生的橘子大模型,就是目前這個世界上性能最強的ai大模型!
神經網絡下的人工智能參數,就相當於人類大腦的神經突觸。
參數數量是影響人工智能模型能力的最重要因素之一,甚至是決定性因素。
更多的參數通常意味著模型具有更高的表示能力,能夠捕捉和表達更複雜的模式和關係。
說人話,就是參數越多,人工智能就越像人。
而且,具有更多參數的模型可以更好地擬合訓練數據,降低訓練誤差。
說人話,就是參數越多,人工智能的理解能力就越強。
從大方向上來說——參數越多,人工智能的能力越強,這句話是沒有錯的。
盡管目前隻有40g的訓練資料,但橘子大模型已經展現出了相當程度的智能水平。
這也說明,柚子所創造的深度學習訓練框架效率之高,已經遠超古狗一個月前剛剛發布tensorflow訓練框架0.5版。
值得注意的是,人工智能訓練框架和人工智能大模型的模型框架是兩個不同的東西。
比如橘子大模型,其中所使用的多層神經網絡及神經網絡的層次結構和連接方式就是橘子的模型框架。
而訓練框架,是一個提供工具和接口,用於構建、訓練、評估和部署深度學習模型的軟件平台。
說人話,就是,如果未經數據訓練的大模型框架是一個嶄新的腦子,那麽訓練框架就是學校、是老師、是整個教育體係。
ai大模型框架本身的層次和結構,就是這個嶄新腦子的智商。
而訓練數據,就是被教育體係用各種方法教授給這個嶄新腦子的知識。
老師水平不同,教育體係不同,教授的知識不同,那麽學生掌握知識的效率和準確率自然也不同。
一個學生本身成績好不好,一方麵取決於個人智商和努力,另一方麵,也取決於教育方式和教育體係是否科學,老師的教學水平如何。
還有一方麵,就是這些知識本就應該是正確的,錯誤的知識教授給學生,在考試和實際應用中沒有任何作用。
同樣,受過汙染的錯誤數據也無法訓練出可用的ai大模型,使用受過汙染的數據訓練大模型,會導致訓練後的大模型幾乎沒有任何實用性。
三者相輔相成,缺一不可。
否則學區房怎麽能賣那麽貴?
否則輔導班怎麽會那麽貴?
“柚子,以三天間隔為單位,用柚子科技的賬號,將訓練框架的前置技術按照前置順序分批次上傳到github,選擇apache2.0的許可證。”
“隨後,寫三篇關於多頭注意力機製的論文,同樣以每周一次的頻率,發到arxiv上。”
“另外,在github、arxiv上、linkedin上,尋找位於大周境內的高技術人才,要求如下……”
方豫給柚子下達了三個明確的指令。
也該給柚子科技找一個技術團隊了,否則自己這麽一個社保人數隻有三個人的小公司,突然就搞出了訓練框架和成熟的ai大模型,誰也不會信啊。
作為一個創業公司,如何次才能吸引高水平的技術人才?
很簡單,就是你自己先是一個高水平的技術人才。
天才是有聚集效應的。
放到github上的這些東西,就是餌。
無論是柚子還是橘子大模型,肯定都會藏起來,方豫準備把橘子大模型剝離出最基本的框架,到時候交給這些天才去填充,如果填充的模型效率不如柚子做出的,自己再進行修改。
總之,把自己的能力控製在頂級天才的程度,確保做出的東西不被人懷疑就行了。
事實上,一個大模型團隊和訓練架構團隊的核心成員,人數往往並不多,可能隻有十幾個人甚至幾個人。
因此,方豫隻要吸納三到五名算法科學家、五到十名工程師、三名數據處理人員,再加上十來名內勤人員,就完全能夠把這個大模型團隊支撐起來了。
產品端的總人數完全可以控製在30人以內。
而且,在產品端,方豫一個外國人都不準備招。
倒不是方豫有多強的民族主義,主要還是出於保密的考慮。
人都在大周,出現了什麽意外,他也能盡快處理掉,但如果在國外的話,就比較麻煩了。
如果是其他公司,可能還會有在大周很難招到頂級人才的疑慮。
但柚子科技就不需要有這方麵的擔心了,方豫本身想要找的就是高水平人才,而不是頂級人才。
要不是顧及到現實問題,他一個人,配上一個財務和運營團隊,光靠柚子就能把產品端整個建立起來,不需要任何其他人的輔助,而且效率還會更高。
到時候可能唯一需要大量人手的,就是ai對齊部門,說白了就是讓ai的倫理道德和人類社會的倫理道德對齊。
這部分員工是沒法省的,需要有專職的社會科學專家以及大量的測試人員,通過與ai間各種稀奇古怪的對話,來發現ai存在的倫理問題,防微杜漸。
哪節省,審核員也沒法節省。
不過,這些都是後話。
在此之前,方豫得先給柚子科技找個hr。
哦,不是,得先去籃球隊裝個逼。
這一章我已經盡量寫的深入淺出,修改了很多次,但還是保留了這部分內容。
因為後麵圍繞人工智能的東西太多了,還是要先爭取讓所有人都能看明白人工智能大模型究竟是怎麽回事,原理究竟是什麽,一個人工智能又是如何誕生的。
這些東西不是作者在炫耀或者水字數,而是要說明,在現實社會中,主角如果真的搞出一個單獨的訓練框架和模型框架,怎麽樣才能不被人懷疑的將這個模型發布,又該怎麽樣從專業角度把自己的利益最大化。
這樣,後續的情節爽點才能起得來。
方豫看了一眼柚子,從某種意義上說,這個大模型也能算是柚子的孩子了。
就是不知道這個孩子能成長到什麽程度?
橘子大模型的底層中,不隻由多重神經網絡組成,更隱含了柚子自身的簡化版架構法則,具有超過三億的參數,僅大模型本身規模,就超過10個g。
3億的參數,在周曆3061年的現在,是一個非常恐怖的規模。
deepmind幾個月前剛剛公布的deepqwork的參數量也不過才168萬。
而非死不可年中發布的深度學習麵部學習係統deepface,雖然沒有公布參數量,但按照推測,應該也不過是一千多萬參數的級別。
而三年前古狗發布的古狗大腦計劃,使用了一萬六千顆cpu進行訓練,號稱有10億參數,但其中無效參數和負作用參數比例超過百分之七十。
雖然也實現了視頻端的無監督學習,但訓練效果並不好。
但橘子大模型是不一樣的。
由於柚子是在自己本體中完成的橘子大模型的框架搭建,在奧術的輔助下,橘子大模型的三億參數中,無效參數和負作用參數基本能控製在10%以內!
可以說,剛剛誕生的橘子大模型,就是目前這個世界上性能最強的ai大模型!
神經網絡下的人工智能參數,就相當於人類大腦的神經突觸。
參數數量是影響人工智能模型能力的最重要因素之一,甚至是決定性因素。
更多的參數通常意味著模型具有更高的表示能力,能夠捕捉和表達更複雜的模式和關係。
說人話,就是參數越多,人工智能就越像人。
而且,具有更多參數的模型可以更好地擬合訓練數據,降低訓練誤差。
說人話,就是參數越多,人工智能的理解能力就越強。
從大方向上來說——參數越多,人工智能的能力越強,這句話是沒有錯的。
盡管目前隻有40g的訓練資料,但橘子大模型已經展現出了相當程度的智能水平。
這也說明,柚子所創造的深度學習訓練框架效率之高,已經遠超古狗一個月前剛剛發布tensorflow訓練框架0.5版。
值得注意的是,人工智能訓練框架和人工智能大模型的模型框架是兩個不同的東西。
比如橘子大模型,其中所使用的多層神經網絡及神經網絡的層次結構和連接方式就是橘子的模型框架。
而訓練框架,是一個提供工具和接口,用於構建、訓練、評估和部署深度學習模型的軟件平台。
說人話,就是,如果未經數據訓練的大模型框架是一個嶄新的腦子,那麽訓練框架就是學校、是老師、是整個教育體係。
ai大模型框架本身的層次和結構,就是這個嶄新腦子的智商。
而訓練數據,就是被教育體係用各種方法教授給這個嶄新腦子的知識。
老師水平不同,教育體係不同,教授的知識不同,那麽學生掌握知識的效率和準確率自然也不同。
一個學生本身成績好不好,一方麵取決於個人智商和努力,另一方麵,也取決於教育方式和教育體係是否科學,老師的教學水平如何。
還有一方麵,就是這些知識本就應該是正確的,錯誤的知識教授給學生,在考試和實際應用中沒有任何作用。
同樣,受過汙染的錯誤數據也無法訓練出可用的ai大模型,使用受過汙染的數據訓練大模型,會導致訓練後的大模型幾乎沒有任何實用性。
三者相輔相成,缺一不可。
否則學區房怎麽能賣那麽貴?
否則輔導班怎麽會那麽貴?
“柚子,以三天間隔為單位,用柚子科技的賬號,將訓練框架的前置技術按照前置順序分批次上傳到github,選擇apache2.0的許可證。”
“隨後,寫三篇關於多頭注意力機製的論文,同樣以每周一次的頻率,發到arxiv上。”
“另外,在github、arxiv上、linkedin上,尋找位於大周境內的高技術人才,要求如下……”
方豫給柚子下達了三個明確的指令。
也該給柚子科技找一個技術團隊了,否則自己這麽一個社保人數隻有三個人的小公司,突然就搞出了訓練框架和成熟的ai大模型,誰也不會信啊。
作為一個創業公司,如何次才能吸引高水平的技術人才?
很簡單,就是你自己先是一個高水平的技術人才。
天才是有聚集效應的。
放到github上的這些東西,就是餌。
無論是柚子還是橘子大模型,肯定都會藏起來,方豫準備把橘子大模型剝離出最基本的框架,到時候交給這些天才去填充,如果填充的模型效率不如柚子做出的,自己再進行修改。
總之,把自己的能力控製在頂級天才的程度,確保做出的東西不被人懷疑就行了。
事實上,一個大模型團隊和訓練架構團隊的核心成員,人數往往並不多,可能隻有十幾個人甚至幾個人。
因此,方豫隻要吸納三到五名算法科學家、五到十名工程師、三名數據處理人員,再加上十來名內勤人員,就完全能夠把這個大模型團隊支撐起來了。
產品端的總人數完全可以控製在30人以內。
而且,在產品端,方豫一個外國人都不準備招。
倒不是方豫有多強的民族主義,主要還是出於保密的考慮。
人都在大周,出現了什麽意外,他也能盡快處理掉,但如果在國外的話,就比較麻煩了。
如果是其他公司,可能還會有在大周很難招到頂級人才的疑慮。
但柚子科技就不需要有這方麵的擔心了,方豫本身想要找的就是高水平人才,而不是頂級人才。
要不是顧及到現實問題,他一個人,配上一個財務和運營團隊,光靠柚子就能把產品端整個建立起來,不需要任何其他人的輔助,而且效率還會更高。
到時候可能唯一需要大量人手的,就是ai對齊部門,說白了就是讓ai的倫理道德和人類社會的倫理道德對齊。
這部分員工是沒法省的,需要有專職的社會科學專家以及大量的測試人員,通過與ai間各種稀奇古怪的對話,來發現ai存在的倫理問題,防微杜漸。
哪節省,審核員也沒法節省。
不過,這些都是後話。
在此之前,方豫得先給柚子科技找個hr。
哦,不是,得先去籃球隊裝個逼。
這一章我已經盡量寫的深入淺出,修改了很多次,但還是保留了這部分內容。
因為後麵圍繞人工智能的東西太多了,還是要先爭取讓所有人都能看明白人工智能大模型究竟是怎麽回事,原理究竟是什麽,一個人工智能又是如何誕生的。
這些東西不是作者在炫耀或者水字數,而是要說明,在現實社會中,主角如果真的搞出一個單獨的訓練框架和模型框架,怎麽樣才能不被人懷疑的將這個模型發布,又該怎麽樣從專業角度把自己的利益最大化。
這樣,後續的情節爽點才能起得來。