盡管信心滿滿,但能夠這麽順利的就取得橘子大模型的源代碼,還是讓madeline喜出望外。
千尋的安全部門手裏有大量的0day漏洞(被黑客發現的,開發者和用戶不知道的漏洞),他們所製作的木馬就是利用了linux係統中的幾個0day漏洞來遠程執行代碼並獲取權限。
千尋根本沒有等太久,那個加密包第二天就被柚子科技解密調用了,裏麵果然是橘子大模型內測後的修複版本。
吳恩德離開後,接替他工作的傅遠生雖然滿嘴軍令狀,但心裏其實還是忐忑的。
他是內行,雖然此前沒有接觸過橘子大模型這種類型的神經網絡,但bp、lstmn、rnn、dnn、seq2seq等模型還是玩的很熟的。
無論什麽神經網絡,本質上都沒有刪除數據這麽一說,隻能重新訓練。
深度學習並不是把數據資料存在某些地方供神經網絡調用,而是讓神經網絡“學習”這些內容,學習後的東西會導致“神經突觸”的變化,而大模型的“神經突觸”,就是所謂的“參數”。
這些參數的數值變化和相互的連接,就像人類學習的時候神經突觸的連接一樣,意味著大模型真正“掌握”了訓練的知識。
比如一個參數13b(130億)的大模型,存在一塊硬盤上,可能大小有20個g。
讓它接受2個t的數據訓練後,可能它的大小還是20個g。
大小沒有什麽變化,但這2個t的資料它卻已經完全掌握了。
但既然是模仿人類神經形成的人工智能模型,其實也存在了人類智能的某些問題。
比如說“遺忘”的問題,就是明明學了,過一陣時間之後卻發現ai把學過的東西忘了。
ai過度訓練後,可能會出現對新數據“想當然”的現象。
就像人類麵對新生事物時,明明什麽都不明白,卻用過往經驗進行解釋,這在ai領域中叫“過度擬合”。
一堂課老師講了半本書,前三頁你還能聽明白,到後麵就是聽天書,對於ai來說,就是“信息過載。”
人類接觸到的信息是片麵的情況下,就會導致認知偏差,ai的數據如果集中存在某一種意識形態的內容,同樣會導致認知偏差。
林林總總。
更有甚者,原本是個好模型,別人訓練都沒事,你來訓練,要麽無法收斂得到結果(可以理解為學不會),要麽災難性遺忘,要麽梯度爆炸或消失。
在架構和參數沒有太大改動的情況下,能不能訓練出可用的大模型,甚至是一門玄學。
ai的訓練與調優充滿了複雜性和不可預測性。
有時候,一個微小的參數調整或數據處理步驟的變化,就能導致訓練結果的巨大差異。
就算傅遠生嚴格按照科學的方法調整超參數,精心選擇數據集,並使用最先進的硬件設備,但他仍舊沒有足夠的信心在短短的一兩周時間內,把橘子大模型重新訓練一遍去除柚子科技的所有痕跡。
但成了的話,自己可就是agi之父啊!
升職加薪啊!
成為世界第一的ai權威啊!
又有幾個人能抵擋這樣的誘惑呢?
而且千尋早就準備好了,如果柚子科技那邊反擊,甚至放出橘子大模型是他們自我研發的實錘,千尋也不怕。
掌握了十幾億經費的公關一號位可不是吃素的!
哼!
入關之後,自有大儒為我辯經。
先攪渾水,過上半年再持續的歲月史書,柚子科技沒多久就成了曆史笑柄了!
傅遠生實際上手之後,更是喜出望外感覺自己天命加身。
這個橘子大模型和柚子訓練框架太踏媽好用了。
無論用什麽策略調整參數,幾乎訓練效果都很好,效率奇高。
應該三天就能完成一輪訓練。
公測版本的橘子大模型相較內測版的130億參數又做了倍計的提升,足足有1500億的參數。
傅遠生指揮自己三個忠實走狗,四個人開始關在小黑屋裏閉關,一邊去除橘子大模型內的柚子科技的痕跡,針對性的調整參數,一邊進行重複訓練,盡可能的覆蓋這個大模型原本學習的知識。
尤其是那種“你是誰創造的?”之類的問題,必須對大模型進行監督學習,讓其遇到類似的問題都能回答是“我是‘聞君一言’,是一個ai助手,千尋公司創造了我。”
或,“千尋的天才工程師們日以繼夜的工作和努力,才讓我和你見麵,開心嗎?”
為了徹底避免問題出現,傅遠生他們甚至把“柚子科技”、“柚子”及能夠聯想到的其他詞語都作為禁詞,禁止修改後的“聞君一言”在任何方式下提及到。
當然,這仍然不能徹底解決問題,不過沒關係,千尋隻準備公測三天,三天後,馬上就宣布公測結束,係統升級,剩下的時間慢慢搞。
總是能把這個問題解決掉的。
傅遠生熬夜熬的眼珠通紅,這是累紅的嗎?
不,這是被我那紅彤彤的前程照紅的!
——
柚子科技官方微博的表態,讓所有吃瓜群眾都覺得不明所以。
那句有意思還能夠解釋為反擊的話,上麵貼的那張集體穿著魔法袍的團隊照片什麽意思?
想對千尋用個阿瓦達啃大瓜?
你就是當事人啊,啃什麽瓜?
看到柚子科技官方發的微博,估計是做賊心虛,千尋管理層幾乎全體出動,紛紛開始陰陽怪氣起柚子科技。
牛亮,微博認證千尋金融服務事業組副總裁:“難以理解什麽樣的智商,會相信一家成立不足一年的小公司能夠改變世界。”
荊浩,微博認證千尋江米總經理:“十年磨一劍,為千尋點讚,我們永遠都是那個追求技術與夢想的少年!@robert李”
袁山君,微博認證千尋營運副總裁:“童話很美好,但可惜,現實世界不相信童話。千尋從3057年就已經在ai領域每年至少投入上百億,到如今終於開花結果,可喜可賀。ai行業是資金密集型、技術密集型的行業,不是哪家小公司就能碰瓷的。”
對於這些人的微博,柚子科技都做了轉發,每次轉發,還都配上那句“有意思”以及那張團隊照片。
而輿論的導向,也開始在千尋巨額的公關費用下,開始向攻擊柚子科技的方向去引導。
那些冷靜分析柚子科技不可能是抄襲者的文章,基本都沒有任何流量,而柚子科技的官微之下,則充斥了水軍和不明真相的辱罵。
百分之九十九的回複都認為柚子科技的回複是不以為恥反以為榮。
而對這些人,掛著柚子官微的方豫根本不在乎,開著小號跟著一起罵。
由於罵的過於有特點,小號的很多條微博居然還被千尋的很多高管轉發了。
千尋和柚子科技的公測是同一天同一時間,都是4月5日清明假期後的第一天上午。
由於柚子科技的公測時間早就公開在4月5日上午十點,為了喝頭啖湯,千尋特意將公測時間提早一個小時在上午九點。
不同於柚子科技的按兵不動,這些日子來,千尋可以說是外緊內也緊,媒體上努力控評,內部緊鑼密鼓的抓bug做測試。
“請匯總出集團3061年所有研發項目的roiforr&d,並根據上傳的模版形成一個報告。”robert李在對話欄中輸入一行要求。
“聞君一言”同樣具有企業api,現在robert李就是把千尋的備用服務器與企業api進行連接,針對性的開發出的千尋內部ai管理助手。
收到指令後,“聞君一言”很快速的就把千尋3061年所有的研發項目的roi進行了匯總排列,並依據多標準決策分析(mcda)方法,對這些項目進行了綜合評估,隨後又用十幾秒的時間生成出了ppt。
robert李打開ppt一看,謔,比平時cto拿上來的報告還清晰。
至於那些可能露餡的測試,他們早就做完了。
“啪啪啪啪啪。”看到“聞君一言”的優異表現,madeline帶頭鼓起了了掌。
而其他的高管們,也都跟著鼓起掌來。
從雙手在胸前輕拍,一直到雙手高舉頭頂用力鼓掌,在鼓掌內卷賊的帶動下,大會議室中很快就掌聲震天。
好像誰鼓掌的動作小了,誰就對公司沒有認同感似的。
robert李看了看madeline,直到現在,他仍舊覺得心裏不太踏實,因此他一直都沒有就這件事情發微博。
但此情此景下,他也隻能一如既往地微笑著,還拍了拍傅遠生的肩膀。
“robert,明天就是公測了,你作為千尋的唯一領袖,是不是也應該在社交媒體上支持一下‘聞君一言’?。”madeline帶著勝利者的微笑,雖然是建議的口吻,但robert心裏卻明白,這就是變相的命令。
robert李抿了抿嘴,沉默了一會兒。
“robert?”madeline對他使了個眼色。
robert這才發現周圍氣氛似乎有些古怪,隻好微笑了一下,掏出手機發了一條“明天九點,見證奇跡”的微博,隨後打趣到:“我看到柚子科技的官微把我們很多高管的微博都轉發了,也不知道我這條會不會也被轉。”
老板發微博,下麵的高管們機靈的馬上就開始跟著評論和轉發。
同時還得寫上幾百字的小作文,抒發一下對公司的感恩和對老板的仰慕與崇拜。
打字速度最快的馬屁精還沒寫完小作文呢,就看到已經有人轉發了。
艸!誰手這麽快?
打開一看,柚子科技?
而且還配圖了?
隻不過這次他們倒是沒配那張團隊穿著魔法袍的合影,而是配了一張所有人都眼熟能詳的。
吔s啦你。(成熟的讀者應當自己補圖)
在ai領域,由於ai的黑箱特性,導致抄襲和套皮相比其他it領域有很大的不一樣。
針對一個複雜係統來說,套皮是很麻煩的一件事,億級的代碼量,哪個邊邊角角有點注釋什麽的,可能就會露餡。
但大模型不是個軟件係統,而是是幾十上千甚至上萬億參數組成的神經網絡,這使得抄襲和套皮行為難以直接通過代碼檢查來識別,因為大模型的核心是參數而非顯式的代碼邏輯。
而模型中的知識,隻要重複訓練的次數足夠多,是能夠把過去的知識徹底清洗覆蓋掉的。
這也是為什麽當初斯坦福的兩個學生膽子會大到將清華的ma小鋼炮直接套皮說成自己做的大模型。
這件事在爆出來之初,也隻是有人從性能上懷疑,因為這三個學生拿出的模型性能表現和小鋼炮太像了。
這時候這三個人都沒有承認是套皮。
隻不過他們隻是學生,算力和數據都不太夠,無法徹底完成模型的知識覆蓋,致使他們的模型居然能和小鋼炮的專有特性一樣可以識別清華簡,這才實錘了他們套皮抄襲。
小鋼炮事件之所以能夠這麽快解決,是因為小鋼炮推出的比三個學生拿出的模型早的多,早就打出了名氣,再加上有獨有特性。但如果抄襲的不是三個學生,而是資源更豐富的大廠呢?如果兩者是同時推出的,幾乎沒有先後呢
千尋的安全部門手裏有大量的0day漏洞(被黑客發現的,開發者和用戶不知道的漏洞),他們所製作的木馬就是利用了linux係統中的幾個0day漏洞來遠程執行代碼並獲取權限。
千尋根本沒有等太久,那個加密包第二天就被柚子科技解密調用了,裏麵果然是橘子大模型內測後的修複版本。
吳恩德離開後,接替他工作的傅遠生雖然滿嘴軍令狀,但心裏其實還是忐忑的。
他是內行,雖然此前沒有接觸過橘子大模型這種類型的神經網絡,但bp、lstmn、rnn、dnn、seq2seq等模型還是玩的很熟的。
無論什麽神經網絡,本質上都沒有刪除數據這麽一說,隻能重新訓練。
深度學習並不是把數據資料存在某些地方供神經網絡調用,而是讓神經網絡“學習”這些內容,學習後的東西會導致“神經突觸”的變化,而大模型的“神經突觸”,就是所謂的“參數”。
這些參數的數值變化和相互的連接,就像人類學習的時候神經突觸的連接一樣,意味著大模型真正“掌握”了訓練的知識。
比如一個參數13b(130億)的大模型,存在一塊硬盤上,可能大小有20個g。
讓它接受2個t的數據訓練後,可能它的大小還是20個g。
大小沒有什麽變化,但這2個t的資料它卻已經完全掌握了。
但既然是模仿人類神經形成的人工智能模型,其實也存在了人類智能的某些問題。
比如說“遺忘”的問題,就是明明學了,過一陣時間之後卻發現ai把學過的東西忘了。
ai過度訓練後,可能會出現對新數據“想當然”的現象。
就像人類麵對新生事物時,明明什麽都不明白,卻用過往經驗進行解釋,這在ai領域中叫“過度擬合”。
一堂課老師講了半本書,前三頁你還能聽明白,到後麵就是聽天書,對於ai來說,就是“信息過載。”
人類接觸到的信息是片麵的情況下,就會導致認知偏差,ai的數據如果集中存在某一種意識形態的內容,同樣會導致認知偏差。
林林總總。
更有甚者,原本是個好模型,別人訓練都沒事,你來訓練,要麽無法收斂得到結果(可以理解為學不會),要麽災難性遺忘,要麽梯度爆炸或消失。
在架構和參數沒有太大改動的情況下,能不能訓練出可用的大模型,甚至是一門玄學。
ai的訓練與調優充滿了複雜性和不可預測性。
有時候,一個微小的參數調整或數據處理步驟的變化,就能導致訓練結果的巨大差異。
就算傅遠生嚴格按照科學的方法調整超參數,精心選擇數據集,並使用最先進的硬件設備,但他仍舊沒有足夠的信心在短短的一兩周時間內,把橘子大模型重新訓練一遍去除柚子科技的所有痕跡。
但成了的話,自己可就是agi之父啊!
升職加薪啊!
成為世界第一的ai權威啊!
又有幾個人能抵擋這樣的誘惑呢?
而且千尋早就準備好了,如果柚子科技那邊反擊,甚至放出橘子大模型是他們自我研發的實錘,千尋也不怕。
掌握了十幾億經費的公關一號位可不是吃素的!
哼!
入關之後,自有大儒為我辯經。
先攪渾水,過上半年再持續的歲月史書,柚子科技沒多久就成了曆史笑柄了!
傅遠生實際上手之後,更是喜出望外感覺自己天命加身。
這個橘子大模型和柚子訓練框架太踏媽好用了。
無論用什麽策略調整參數,幾乎訓練效果都很好,效率奇高。
應該三天就能完成一輪訓練。
公測版本的橘子大模型相較內測版的130億參數又做了倍計的提升,足足有1500億的參數。
傅遠生指揮自己三個忠實走狗,四個人開始關在小黑屋裏閉關,一邊去除橘子大模型內的柚子科技的痕跡,針對性的調整參數,一邊進行重複訓練,盡可能的覆蓋這個大模型原本學習的知識。
尤其是那種“你是誰創造的?”之類的問題,必須對大模型進行監督學習,讓其遇到類似的問題都能回答是“我是‘聞君一言’,是一個ai助手,千尋公司創造了我。”
或,“千尋的天才工程師們日以繼夜的工作和努力,才讓我和你見麵,開心嗎?”
為了徹底避免問題出現,傅遠生他們甚至把“柚子科技”、“柚子”及能夠聯想到的其他詞語都作為禁詞,禁止修改後的“聞君一言”在任何方式下提及到。
當然,這仍然不能徹底解決問題,不過沒關係,千尋隻準備公測三天,三天後,馬上就宣布公測結束,係統升級,剩下的時間慢慢搞。
總是能把這個問題解決掉的。
傅遠生熬夜熬的眼珠通紅,這是累紅的嗎?
不,這是被我那紅彤彤的前程照紅的!
——
柚子科技官方微博的表態,讓所有吃瓜群眾都覺得不明所以。
那句有意思還能夠解釋為反擊的話,上麵貼的那張集體穿著魔法袍的團隊照片什麽意思?
想對千尋用個阿瓦達啃大瓜?
你就是當事人啊,啃什麽瓜?
看到柚子科技官方發的微博,估計是做賊心虛,千尋管理層幾乎全體出動,紛紛開始陰陽怪氣起柚子科技。
牛亮,微博認證千尋金融服務事業組副總裁:“難以理解什麽樣的智商,會相信一家成立不足一年的小公司能夠改變世界。”
荊浩,微博認證千尋江米總經理:“十年磨一劍,為千尋點讚,我們永遠都是那個追求技術與夢想的少年!@robert李”
袁山君,微博認證千尋營運副總裁:“童話很美好,但可惜,現實世界不相信童話。千尋從3057年就已經在ai領域每年至少投入上百億,到如今終於開花結果,可喜可賀。ai行業是資金密集型、技術密集型的行業,不是哪家小公司就能碰瓷的。”
對於這些人的微博,柚子科技都做了轉發,每次轉發,還都配上那句“有意思”以及那張團隊照片。
而輿論的導向,也開始在千尋巨額的公關費用下,開始向攻擊柚子科技的方向去引導。
那些冷靜分析柚子科技不可能是抄襲者的文章,基本都沒有任何流量,而柚子科技的官微之下,則充斥了水軍和不明真相的辱罵。
百分之九十九的回複都認為柚子科技的回複是不以為恥反以為榮。
而對這些人,掛著柚子官微的方豫根本不在乎,開著小號跟著一起罵。
由於罵的過於有特點,小號的很多條微博居然還被千尋的很多高管轉發了。
千尋和柚子科技的公測是同一天同一時間,都是4月5日清明假期後的第一天上午。
由於柚子科技的公測時間早就公開在4月5日上午十點,為了喝頭啖湯,千尋特意將公測時間提早一個小時在上午九點。
不同於柚子科技的按兵不動,這些日子來,千尋可以說是外緊內也緊,媒體上努力控評,內部緊鑼密鼓的抓bug做測試。
“請匯總出集團3061年所有研發項目的roiforr&d,並根據上傳的模版形成一個報告。”robert李在對話欄中輸入一行要求。
“聞君一言”同樣具有企業api,現在robert李就是把千尋的備用服務器與企業api進行連接,針對性的開發出的千尋內部ai管理助手。
收到指令後,“聞君一言”很快速的就把千尋3061年所有的研發項目的roi進行了匯總排列,並依據多標準決策分析(mcda)方法,對這些項目進行了綜合評估,隨後又用十幾秒的時間生成出了ppt。
robert李打開ppt一看,謔,比平時cto拿上來的報告還清晰。
至於那些可能露餡的測試,他們早就做完了。
“啪啪啪啪啪。”看到“聞君一言”的優異表現,madeline帶頭鼓起了了掌。
而其他的高管們,也都跟著鼓起掌來。
從雙手在胸前輕拍,一直到雙手高舉頭頂用力鼓掌,在鼓掌內卷賊的帶動下,大會議室中很快就掌聲震天。
好像誰鼓掌的動作小了,誰就對公司沒有認同感似的。
robert李看了看madeline,直到現在,他仍舊覺得心裏不太踏實,因此他一直都沒有就這件事情發微博。
但此情此景下,他也隻能一如既往地微笑著,還拍了拍傅遠生的肩膀。
“robert,明天就是公測了,你作為千尋的唯一領袖,是不是也應該在社交媒體上支持一下‘聞君一言’?。”madeline帶著勝利者的微笑,雖然是建議的口吻,但robert心裏卻明白,這就是變相的命令。
robert李抿了抿嘴,沉默了一會兒。
“robert?”madeline對他使了個眼色。
robert這才發現周圍氣氛似乎有些古怪,隻好微笑了一下,掏出手機發了一條“明天九點,見證奇跡”的微博,隨後打趣到:“我看到柚子科技的官微把我們很多高管的微博都轉發了,也不知道我這條會不會也被轉。”
老板發微博,下麵的高管們機靈的馬上就開始跟著評論和轉發。
同時還得寫上幾百字的小作文,抒發一下對公司的感恩和對老板的仰慕與崇拜。
打字速度最快的馬屁精還沒寫完小作文呢,就看到已經有人轉發了。
艸!誰手這麽快?
打開一看,柚子科技?
而且還配圖了?
隻不過這次他們倒是沒配那張團隊穿著魔法袍的合影,而是配了一張所有人都眼熟能詳的。
吔s啦你。(成熟的讀者應當自己補圖)
在ai領域,由於ai的黑箱特性,導致抄襲和套皮相比其他it領域有很大的不一樣。
針對一個複雜係統來說,套皮是很麻煩的一件事,億級的代碼量,哪個邊邊角角有點注釋什麽的,可能就會露餡。
但大模型不是個軟件係統,而是是幾十上千甚至上萬億參數組成的神經網絡,這使得抄襲和套皮行為難以直接通過代碼檢查來識別,因為大模型的核心是參數而非顯式的代碼邏輯。
而模型中的知識,隻要重複訓練的次數足夠多,是能夠把過去的知識徹底清洗覆蓋掉的。
這也是為什麽當初斯坦福的兩個學生膽子會大到將清華的ma小鋼炮直接套皮說成自己做的大模型。
這件事在爆出來之初,也隻是有人從性能上懷疑,因為這三個學生拿出的模型性能表現和小鋼炮太像了。
這時候這三個人都沒有承認是套皮。
隻不過他們隻是學生,算力和數據都不太夠,無法徹底完成模型的知識覆蓋,致使他們的模型居然能和小鋼炮的專有特性一樣可以識別清華簡,這才實錘了他們套皮抄襲。
小鋼炮事件之所以能夠這麽快解決,是因為小鋼炮推出的比三個學生拿出的模型早的多,早就打出了名氣,再加上有獨有特性。但如果抄襲的不是三個學生,而是資源更豐富的大廠呢?如果兩者是同時推出的,幾乎沒有先後呢