有一位被幾人簇擁著,很有書卷氣質的男子舉起了手,他動作優雅,但說出來的話語卻充滿了尖酸刻薄的味道。
“要不然,還是請李曉軍教授先說說吧,畢竟李教授曾經宣稱他的擬合準確率達到了百分之一百,後來不知道為什麽,卻又突然撤回了這一聲明。”
台上的人大多都哄笑了起來,台下的人卻隻安靜地看戲。
在這個會場中,李曉軍是第二個知道王棟這副麵孔後真實身份的人。
因為前不久,王棟剛剛頂著這副麵孔跟他私下裏見過麵。
而讓台上的李曉軍漲紅了臉龐的這番來自同行的嘲諷,真正應該背鍋的恰恰是王棟本人。
事情是這樣的。
經過漫長而艱辛的努力,王棟終於在破解這台神秘機器的軟件架構方麵取得了重大突破。
他找到了一個非常關鍵的模塊。
那是一個底層模塊。
機器要處理的所有數據,都需要先經過這個底層模塊進行預處理,然後才會被送往上層各個模塊做進一步分析。
他至今還沒有發現例外的情況,而且這個模塊的處理結果非常有意思。
它能把無論什麽格式的數據都映射為一些固定長度的向量。
這些向量的維度是固定的,但向量的個數並不固定。
比如輸入一段語音可能會輸出兩根向量,而輸入另一段語音就可能輸出三根向量。
王棟發現,無論是語音、圖像或其它有結構無結構數據,無論何時輸入,同一個輸入映射得到的輸出向量集合都是一模一樣的。
無論是向量的個數,還是向量的內容。
如果對輸入數據加一些微小的噪聲,隻要沒有到影響其內容的地步,它映射出來的輸出向量也不會發生改變。
反之,如果改變了部分屬性,比如同樣的語音內容但換了一個不同的說話人,或者同樣一隻狗的照片但換了一個拍攝地點,輸出向量的集合中,總有些向量是不變的,代表未改變的那部分內容,但也總有一些向量發生了改變。
在進行了大量的數據分析後,王棟終於確認,這不是一個簡單的數據預處理模塊,而是一個智能解譯模塊。
它能對任意形式的數據進行解譯,把數據中承載的所有信息都識別理解出來,然後用向量的形式表示出來。
也就說,這些向量所構成的表示空間,就是機器所理解的世界。
通過這個智能解譯模塊所得到的,是在其理解的世界中的一種語義表示。
越相近的事物,在這個語義表示空間裏,距離總是越接近的。
比如同一個人的兩段內容相似的語音,輸出的每個向量要不然完全相同,要不然就非常相似。
王棟曾經嚐試過,基於這個模塊得到的語義表示,對計算機領域各種分類任務,利用地球上已有的機器學習算法,幾乎都能達到了百分之一百的識別效果。
所以,這個底層模塊才是這台神秘機器的智能核心。
隻要破解了它,掌握了它,在人工智能方麵,人類就能達到與機器同等的技術水平。
王棟猜測,支撐這個智能解譯模塊的很可能就是一個通用的預訓練模型,或者類似的東西。
通過它就能夠實現從物理層級的世界到概念層級的世界的跨越。
這就是地球上人工智能學者一直夢寐以求的那種模型,一個通用的底座,實現對所有數據的智能解譯,進而就能夠支撐所有的下遊分析任務。
然而,當王棟詢問機器這個智能解譯模塊的工作原理時,卻什麽信息反饋也沒有得到。
王棟一籌莫展,機器不配合,這就是一個打不開的黑盒子。
唯一能采用的策略,也隻能是根據輸入和對應的輸出數據,想辦法擬合出這個解譯模型了。
他先是采集了幾萬億的成對數據用於擬合實驗。
隨後,他便不遺餘力,窮盡一切可能,開始了一段百折不撓的嚐試之旅。
即使有機器的幫助,這一破解過程也是極其艱難和緩慢的,王棟幾乎遍曆了所有的數學和計算機方法。
即使如此,當他把擬合準確率提升到67%之後,這個指標說什麽也無法再提升了。
這個結果把王棟逼得吃不下睡不著,整個人近乎瘋魔。
後來,還是在於麗珍的勸說下,他把這個任務發布了出來,才得以恢複了正常的作息。
這是神國向大眾發布的第一個任務。
除了數據外,他做過的所有的嚐試及其結果也被一並發布了出來。
當然還有獎勵條款。
隻要擬合準確率大於67%,每提升一次就會得到百萬讚幣。
每個月,無論擬合準確率是否高於67%,隻要準確率相比上個月有所提升,且是本月最高,也會有十萬讚幣的獎勵。
王棟也是下了血本。
在神國中,讚幣已經變得越來越重要了。
因為,隨著技術的進步,以及人們在創新方麵投入的精力越來越多,相比較於地球上原有的事物,神國中誕生的事物已經有了質的飛躍,形成了巨大的技術和文化代差。
僅僅五年而已,“神國出品”和“地球出品”就已經是兩種不能相提並論的等級了,而要想獲得神國出品的事物就隻能用讚幣。
現在,讚幣人人都想要,人人都缺。
但想要在神國發布的這個任務中獲取讚幣卻不是一件容易的事情。
任務發布已經兩年多了,迄今為止擬合準確率仍舊未被提升到67%以上。
的確出現了一些王棟從未想到過的技術路線,但擬合結果也隻是差強人意。
第一年裏,王棟還曾經付出過幾筆讚幣獎勵。
但到了第二年,大家的準確率都卡住不動了,指標甚至都還沒達到67%呢。
現在輪到別人瘋魔了,自由行走者及其團隊更是瘋魔的重災區。
對這些人而言,現在已經不是讚幣的問題了,已經變成了誰更聰明的問題。
很多人為此拚盡了全力。
前幾天,李曉軍教授的確在相關論壇發帖,稱自己團隊擬合的準確率達到了100%。
王棟設定過,如果發生了這種情況,機器應該第一時間通知他。
所以,在那條消息發出一分鍾後,他就出現在李曉軍教授麵前了,當然,頂著的是王梁的臉。
他向李曉軍說明了身份,並要求核查他的工作。
李曉軍態度有點奇怪,但還是痛快地同意了他的要求。
李曉軍團隊的方法其實很簡單,就是用了一個非常龐大的深度模型來擬合。
之前,各種結構的深度模型王棟都一一嚐試過,其中就包括李曉軍采用的這個模型。
模型沒有什麽特殊之處,李團隊的訓練過程也沒有什麽特殊之處。
所以,這裏一定有什麽東西搞錯了。
王棟在測試集上跑了一下,準確率的確是100%。
他對模型各層的潛在表示進行了分析,很快就發現了問題。
網絡裏第二層的表示就已經是正確的輸出結果了,後麵的幾百層實際上一直在做恒等變換。
僅用一層神經網絡就能擬合智能解譯模型?真是離了大譜了。
算法如果沒有問題,那就是李曉軍用的這台計算機有問題了。
他在超級機器的幫助下,對這台計算機的工作原理進行了解析,原因馬上就找到了。
李曉軍教授成功申請到的自由行走資格,是去研究連續學習算法。
這個王棟印象深刻,因為他們對計算速度和算力的要求極其離譜,是他看過的申請書中最離譜的一個。
離譜到,雖然那是五年前的事情,王棟還是馬上就想起來了。
他審核申請書時,覺得那樣的計算平台根本不可能存在,然而,機器竟然承諾可以提供。
王棟當時也沒有深究,機器說行就行唄。
現在看來,機器的承諾竟然是以智能解譯模型為基礎的。
也就是說,在計算過程中,該計算平台進行了大量的智能決策,對數據進行了篩選和壓縮,才達到大規模減少實際算力開銷,並加快計算速度的目的。
用這麽一個計算平台來擬合,不就相當於用智能解譯模型來擬合智能解譯模型自己麽?擬合準確率當然是100%了。
當時,王棟很坦率地把情況通報給了李曉軍,並勸他把剛才那個消息撤回來,今後也別再用這個計算平台進行擬合實驗了。
李曉軍從善如流,在消息發出二十幾分鍾後就把它撤了回來。
然而,在別的研究者看來,這就是一個學術大烏龍。
對這任務非常上頭的那些人,一致認為李曉軍是在對他們發動群嘲技能,所以一個個恨得牙癢癢的,找到機會就要刺上兩句。
王棟對此也沒什麽好辦法,他總不能自曝身份跑過去替李曉軍辯解吧。
看著在台上低著頭一言不發的李曉軍,王棟覺得自己似乎欠了他一份人情。
“要不然,還是請李曉軍教授先說說吧,畢竟李教授曾經宣稱他的擬合準確率達到了百分之一百,後來不知道為什麽,卻又突然撤回了這一聲明。”
台上的人大多都哄笑了起來,台下的人卻隻安靜地看戲。
在這個會場中,李曉軍是第二個知道王棟這副麵孔後真實身份的人。
因為前不久,王棟剛剛頂著這副麵孔跟他私下裏見過麵。
而讓台上的李曉軍漲紅了臉龐的這番來自同行的嘲諷,真正應該背鍋的恰恰是王棟本人。
事情是這樣的。
經過漫長而艱辛的努力,王棟終於在破解這台神秘機器的軟件架構方麵取得了重大突破。
他找到了一個非常關鍵的模塊。
那是一個底層模塊。
機器要處理的所有數據,都需要先經過這個底層模塊進行預處理,然後才會被送往上層各個模塊做進一步分析。
他至今還沒有發現例外的情況,而且這個模塊的處理結果非常有意思。
它能把無論什麽格式的數據都映射為一些固定長度的向量。
這些向量的維度是固定的,但向量的個數並不固定。
比如輸入一段語音可能會輸出兩根向量,而輸入另一段語音就可能輸出三根向量。
王棟發現,無論是語音、圖像或其它有結構無結構數據,無論何時輸入,同一個輸入映射得到的輸出向量集合都是一模一樣的。
無論是向量的個數,還是向量的內容。
如果對輸入數據加一些微小的噪聲,隻要沒有到影響其內容的地步,它映射出來的輸出向量也不會發生改變。
反之,如果改變了部分屬性,比如同樣的語音內容但換了一個不同的說話人,或者同樣一隻狗的照片但換了一個拍攝地點,輸出向量的集合中,總有些向量是不變的,代表未改變的那部分內容,但也總有一些向量發生了改變。
在進行了大量的數據分析後,王棟終於確認,這不是一個簡單的數據預處理模塊,而是一個智能解譯模塊。
它能對任意形式的數據進行解譯,把數據中承載的所有信息都識別理解出來,然後用向量的形式表示出來。
也就說,這些向量所構成的表示空間,就是機器所理解的世界。
通過這個智能解譯模塊所得到的,是在其理解的世界中的一種語義表示。
越相近的事物,在這個語義表示空間裏,距離總是越接近的。
比如同一個人的兩段內容相似的語音,輸出的每個向量要不然完全相同,要不然就非常相似。
王棟曾經嚐試過,基於這個模塊得到的語義表示,對計算機領域各種分類任務,利用地球上已有的機器學習算法,幾乎都能達到了百分之一百的識別效果。
所以,這個底層模塊才是這台神秘機器的智能核心。
隻要破解了它,掌握了它,在人工智能方麵,人類就能達到與機器同等的技術水平。
王棟猜測,支撐這個智能解譯模塊的很可能就是一個通用的預訓練模型,或者類似的東西。
通過它就能夠實現從物理層級的世界到概念層級的世界的跨越。
這就是地球上人工智能學者一直夢寐以求的那種模型,一個通用的底座,實現對所有數據的智能解譯,進而就能夠支撐所有的下遊分析任務。
然而,當王棟詢問機器這個智能解譯模塊的工作原理時,卻什麽信息反饋也沒有得到。
王棟一籌莫展,機器不配合,這就是一個打不開的黑盒子。
唯一能采用的策略,也隻能是根據輸入和對應的輸出數據,想辦法擬合出這個解譯模型了。
他先是采集了幾萬億的成對數據用於擬合實驗。
隨後,他便不遺餘力,窮盡一切可能,開始了一段百折不撓的嚐試之旅。
即使有機器的幫助,這一破解過程也是極其艱難和緩慢的,王棟幾乎遍曆了所有的數學和計算機方法。
即使如此,當他把擬合準確率提升到67%之後,這個指標說什麽也無法再提升了。
這個結果把王棟逼得吃不下睡不著,整個人近乎瘋魔。
後來,還是在於麗珍的勸說下,他把這個任務發布了出來,才得以恢複了正常的作息。
這是神國向大眾發布的第一個任務。
除了數據外,他做過的所有的嚐試及其結果也被一並發布了出來。
當然還有獎勵條款。
隻要擬合準確率大於67%,每提升一次就會得到百萬讚幣。
每個月,無論擬合準確率是否高於67%,隻要準確率相比上個月有所提升,且是本月最高,也會有十萬讚幣的獎勵。
王棟也是下了血本。
在神國中,讚幣已經變得越來越重要了。
因為,隨著技術的進步,以及人們在創新方麵投入的精力越來越多,相比較於地球上原有的事物,神國中誕生的事物已經有了質的飛躍,形成了巨大的技術和文化代差。
僅僅五年而已,“神國出品”和“地球出品”就已經是兩種不能相提並論的等級了,而要想獲得神國出品的事物就隻能用讚幣。
現在,讚幣人人都想要,人人都缺。
但想要在神國發布的這個任務中獲取讚幣卻不是一件容易的事情。
任務發布已經兩年多了,迄今為止擬合準確率仍舊未被提升到67%以上。
的確出現了一些王棟從未想到過的技術路線,但擬合結果也隻是差強人意。
第一年裏,王棟還曾經付出過幾筆讚幣獎勵。
但到了第二年,大家的準確率都卡住不動了,指標甚至都還沒達到67%呢。
現在輪到別人瘋魔了,自由行走者及其團隊更是瘋魔的重災區。
對這些人而言,現在已經不是讚幣的問題了,已經變成了誰更聰明的問題。
很多人為此拚盡了全力。
前幾天,李曉軍教授的確在相關論壇發帖,稱自己團隊擬合的準確率達到了100%。
王棟設定過,如果發生了這種情況,機器應該第一時間通知他。
所以,在那條消息發出一分鍾後,他就出現在李曉軍教授麵前了,當然,頂著的是王梁的臉。
他向李曉軍說明了身份,並要求核查他的工作。
李曉軍態度有點奇怪,但還是痛快地同意了他的要求。
李曉軍團隊的方法其實很簡單,就是用了一個非常龐大的深度模型來擬合。
之前,各種結構的深度模型王棟都一一嚐試過,其中就包括李曉軍采用的這個模型。
模型沒有什麽特殊之處,李團隊的訓練過程也沒有什麽特殊之處。
所以,這裏一定有什麽東西搞錯了。
王棟在測試集上跑了一下,準確率的確是100%。
他對模型各層的潛在表示進行了分析,很快就發現了問題。
網絡裏第二層的表示就已經是正確的輸出結果了,後麵的幾百層實際上一直在做恒等變換。
僅用一層神經網絡就能擬合智能解譯模型?真是離了大譜了。
算法如果沒有問題,那就是李曉軍用的這台計算機有問題了。
他在超級機器的幫助下,對這台計算機的工作原理進行了解析,原因馬上就找到了。
李曉軍教授成功申請到的自由行走資格,是去研究連續學習算法。
這個王棟印象深刻,因為他們對計算速度和算力的要求極其離譜,是他看過的申請書中最離譜的一個。
離譜到,雖然那是五年前的事情,王棟還是馬上就想起來了。
他審核申請書時,覺得那樣的計算平台根本不可能存在,然而,機器竟然承諾可以提供。
王棟當時也沒有深究,機器說行就行唄。
現在看來,機器的承諾竟然是以智能解譯模型為基礎的。
也就是說,在計算過程中,該計算平台進行了大量的智能決策,對數據進行了篩選和壓縮,才達到大規模減少實際算力開銷,並加快計算速度的目的。
用這麽一個計算平台來擬合,不就相當於用智能解譯模型來擬合智能解譯模型自己麽?擬合準確率當然是100%了。
當時,王棟很坦率地把情況通報給了李曉軍,並勸他把剛才那個消息撤回來,今後也別再用這個計算平台進行擬合實驗了。
李曉軍從善如流,在消息發出二十幾分鍾後就把它撤了回來。
然而,在別的研究者看來,這就是一個學術大烏龍。
對這任務非常上頭的那些人,一致認為李曉軍是在對他們發動群嘲技能,所以一個個恨得牙癢癢的,找到機會就要刺上兩句。
王棟對此也沒什麽好辦法,他總不能自曝身份跑過去替李曉軍辯解吧。
看著在台上低著頭一言不發的李曉軍,王棟覺得自己似乎欠了他一份人情。