等等,似乎可以發表論文了!
林灰突然這樣想到。
事實上,林灰先前就想過發表論文。
不過當時的林灰覺得以一個高中生的身份發表論文或許會有點驚世駭俗,就擱置了這一想法。
但今時不同往日,現在的林灰已經搖身一變成為麻省理工學院計算機科學專業的準大一學生。
有這層身份在,林灰在學術層麵把天捅個窟窿似乎也不過分。
麻省理工學院計算機方麵很弔麽?
當然很弔!
拿世界各地的計算機專業所學的專業課內容來說吧。
幾乎一半的內容都跟麻省理工學院計算機專業有著千絲萬縷的關係。
現在這個時間節點,麻省理工學院的計算機科學專業更是當之無愧的世界第一。
當然了就跟全國第一的高校有兩所一樣。
世界第一的計算機專業也有兩所高校。
除了麻省理工學院之外另一個是斯坦福大學。
兩所學校在計算機方麵可以說是平分秋色。
(一般來講,加州大學伯克利分校計算機也不弱。
不過國人眼中分校一般沒啥存在感)
盡管如此,麻省理工學院依然是世界範圍內入學競爭最大的學府之一。
這樣的學府門檻自然是極高的。
在收到麻省理工學院的入學通知後。
在麻省理工學院的官方網站上林灰看到來自麻省理工學院的公示內容:
今年麻省理工學院校方共收到18356個本科、19446個研究生2014-15學年的入學申請。
分別僅錄取了1447(7.9%)及2991(15.4%)名申請者。
實際就讀的可能更少,畢竟選擇是雙向的。
雖然有的人能被錄取。
但是卻往往很任性的不去了。
這麽做當然很zhuangbility,不過短時間內林灰還是做不到這份任性的。
也沒必要太任性,穩健發育才是硬道理。
此時能夠成為1447名幸運兒中間的一位林灰已經很高興了。
畢竟林灰現在所處的層級已經是不少人一輩子都難以企及的高度了。
就現在這個時間節點而言。
成為麻省理工學院計算機科學專業裏的一員確實是林灰的榮幸。
但與此同時,林灰也清楚地知道。
用不了多久他就會成為麻省理工學院的驕傲。
進入麻省理工學院就讀對於林灰來說僅僅是個開始,未來的路還有很長。
不過,現在想以後的事情還有點遙遠,把握住眼下才是最要緊的。
千裏之行始於足下。
短時間內來看,林灰依舊需要一步一個腳印地往前走。
這樣或許不能走得很快。
但一定會走得很穩。
林灰也必須走得很穩!
縱然林灰不是玩politics的,但在背負著跨時空而來這個大秘密的情況下。
林灰所要走的路容不得行差踏錯。
而就此時而言,林灰在學術上最穩妥的前行辦法就是發表幾篇論文。
即便是發表論文也算不上無中生有。
畢竟林灰先前已經搞定了生成式文本摘要的相關專利了。
申請專利之後再發表幾篇論文作為先前專利的補充說明也是很符合常理的事情。
不過具體該發哪個細分領域的論文呢?
這是個問題。
原本這不該成為一個問題的。
按照林灰最先前的設想,整個生成式文本摘要作為一個成果能在影響因子比較高的刊物上發一篇論文就不錯了。
但林灰萬萬沒想到這個時空裏人們在涉及到自然語言處理這方麵的研究著實慢半拍。
從先前伊芙·卡莉發給林灰的郵件來看。
雖然這個時空西方學術界對於文本摘要的研究傾注了大量心血。
但這個時空西方對於文本摘要方麵的研究進展和前世那個時空的西方對文本摘要的研究情況依舊是有些差別的。
盡管從客觀上講差別不是太大。
但綜合衡量的話,這個時空西方世界對文本摘要的研究情況比前世那個時空節奏要慢兩年。
(至於~國更是不用說,此時的學術界還是習慣摸著鷹醬過河的。
老實說這種做法不完全算錯,可以避免資源浪費。
但總是這樣的話太被動了。
想要當老大,就得敢為天下先)
雖然這個時空在相關領域的研究僅僅是節奏上慢了兩年時間。
但兩年足以改變很多事情了。
更何況,林灰原本就有著七年的信息優勢。
此消彼長之下,林灰就相當於有了接近十年的信息優勢。
或許有人不解,僅僅隻是工作了三年,林灰憑什麽能夠把信息優勢發揮的淋漓盡致。
雖然前世僅僅工作了三年,但林灰說是有六年的工作經驗也不過分。
至於多餘的三年工作經驗哪來的?
這說多了都是淚,加班加出來的。
不過不得不說,這都是“福報”.
這加班多是一件美逝啊。
不是這樣的瘋狂加班林灰哪有能夠重生的機會?
縱然能有重生的機會。
不瘋狂加班林灰怎麽會對那些枯燥的東西記憶如此深刻呢?
不過這些都是前塵往事了。
因為過往的種種經曆,在現在這個時空裏,林灰就是當之無愧的強者。
至於同領域的其他研究者,林灰尊重他們的努力。
但不得不說:抱歉,你們真的好弱欸!
並不是林灰在信口開河。
林灰先前搞得那個生成式文本摘要這個算法所涉及到的全部技術。
如果被這個時空下的研究團隊徹底吃透。
起碼能將這個時空全世界自然語言處理以及神經網絡學習方麵的研究進展加速近一年的時間。
當然這說的是馬上吃透的話,能加速近一年時間。
如果這些研究團隊花了兩三年才搞定相應的進展,那反而是拖累他們正常的進度了。
拋開生成式文本摘要這個專利不談。
僅僅是林灰在弄生成式文本摘要時順手牽羊搞定的那個LH文本摘要準確度衡量模型也夠牛掰的了。
如果這項技術能夠被這個時空的研究團隊所掌握的話,對於他們的研究也是有所助力的。
盡管林灰當初就把如何構建模型表達的已經足夠清楚,就差手把手教了。
(構建模型的話首先要運用語言模型來評估算法生成語言的流暢度,然後使用相似度模型評估文本和摘要之間的語義相關性,最後為了有效評估實體、專有詞的複現程度,引入原文信息量模型來評估。)
但此時的研究人員似乎仍然很好奇林灰是怎麽構建這一衡量標準的。
林灰記得先前伊芙·卡莉在他發的郵件中就表達了對於“LH文本摘要準確度衡量模型”究竟是如何構建的困惑。
林灰記得伊芙·卡莉當初除了好奇林灰是怎麽搞定語料庫這個問題之外。
其困惑主要集中在林灰究竟采用什麽方法架構相似度模型的。
當知道世界最頂尖學府附屬的研究機構的科研人員居然好奇這事,林灰還是意外的。
林灰躊躇滿誌地蓋了一個“華麗的房子”。
原本以為這個時空人們會好奇林灰是怎麽蓋出這個房子的。
沒想到反倒先被問道蓋房子的木頭是從哪開采的?
這就是林灰當初收到伊芙·卡莉郵件時的直觀感受。
不過如果誠如伊芙·卡莉在郵件裏介紹的那般,林灰也能理解伊芙·卡莉為什麽困惑。
涉及到相似度模型的架構一般都是通過計算的方式。
通過計算語義文本相似度以衡量這兩個文本的語義相似度。
一般來說,語義相似度值越小,兩個文本之間的語義差異越大,它們在語義層麵的相似度越低;
反之,該值越大,兩個文本表達的語義越相似。
或許在人們看來,區分相似文本是很簡單的一件事情啊?
這不是隨便讀一下就能搞定麽?
但是要知道區分相似文本不是要人來區分,而是要機器區分相似文本。
涉及到相似度模型的構建確實不是容易的事情,畢竟人類語言表達是極其複雜的。
更遑論大部分專業性比較強的文章裏文本中還存在許多同義詞、縮略語、特指詞和多變的句法結構。
這些都極大地增加了計算文本語義相似度的難度。
但這個問題不解決不行,林灰知道計算文本語義相似度是一個很重要的分支領域。
在信息檢索領域,語義文本相似性計算在文本分類、文本聚類和實體消歧等任務中發揮著重要作用;
在人工智能領域,也需要語義文本相似性算法來支持問答係統和智能檢索等任務。
<a id="wzsy" href="http://m.xiaoshuting.cc">小書亭</a>
此外,語義文本相似性計算也被廣泛用於自然語言處理任務中,如抄襲檢測、文本總結和機器翻譯。
總之,對語義文本相似性算法為代表的相似度模型研究具有重要的應用價值。
如果不解決計算文本語義相似度這個問題的話,跟別提如何更進一步的文本處理了。
拋開讓機器區分相似文本這個問題不談。
僅僅是想要機器識別文本這件事情就極其困難了。
自然語言一般就是說人類能理解的語言,比如看到的文字就是自然語言。
但當我們需要機器或者說計算機處理自然語言時。
機器/計算機卻沒辦法直接理解這些符號(漢字、字母、標點符號等)。
這些符號必須先被數值化,然後才能輸入計算機進行後續處理。
僅僅隻是數值化之後也用途不大。
必須引入其他的一些內容來反應出詞的屬性。
就像我們不能從一個普普通通的代號知道這串數字究竟表示的是訂閱、收藏還是打賞。
總之,僅僅是一個代號是看不出來每串數字對應的屬性的。
這個問題也是計算文本語義相似度的一個研究熱門之一。
如何表示數值化的自然語言相對應的屬性呢?
研究人員一般做法是將數值化的語言矢量化或者說向量化。
向量相比於標量的話就是帶方向的量。
事實上這種研究方向並不算新潮。
林灰記得前世早在1975年,就有研究人員首次提出向量空間模型(VSM),試圖利用該模型來處理數值化的自然語言。
林灰通過搜索相關信息,發現這個時空雖然慢了一點,但VSM向量空間模型這個方法在1977年也被提出來了。
所謂的VSM模型聽起來或許挺高大上的。
其實沒那麽複雜。
其主要思想就是假設一個文本的語義隻與該文本中的單詞有關,而忽略其語序和單詞之間的相互關係,然後通過基於詞頻統計的方法,將文本映射成向量,最後通過向量間的距離計算以表征文本間的相似度。
計算兩個向量之間的距離?
這玩意是高中課本上的內容。
估計高考後腦子裏知識還沒忘記的一般考生都能拿過來利用這個模型算算文本相似度。
不過很多高中生學的時候可能根本不知道他們學的這玩意能做這個。
(ps:……本書有高中讀者吧,你們學的東西很有用,不要覺得暫時看不到用途就放棄)
當然,也正是由於該模型簡單高效。
在該模型提出來之後很長的一段時間裏,它都是文本相似度計算領域的主流方法。
不過該模型並不是沒有缺點。
基於VSM的方法仍然有兩點缺陷:
一方麵當文本量很大時,生成的文本向量是非常稀疏的,這就導致了空間和計算資源的浪費;
另一方麵VSM為達到簡化模型的效果忽略了詞語間的關係,但在很多情況下詞語之間是存在聯係的,因此簡單地認為詞語間相互獨立是不合理的。
這兩條缺陷尤其致命。
第一條直接影響處理相似度的效率,第二條直接影響詞義相似度判別的準確度。
在這種情況下,VSM模型在使用了一段時間之後,研究人員就將這個模型拋棄了。
現在的人們具體應用什麽計算文本相似度林灰也不是很清楚。
不過伊芙·卡莉先前發給林灰的郵件並沒有提到向量有關的內容。
時下的研究人員似乎已經淡忘了向量化。
或許現在再說到利用向量化進行自然語言文本處理似乎是一個很複古的研究方向了。
不過實際上向量化這個方向仍然有潛力可以挖掘。
應用分布式詞向量完全可以進行文本相似度計算。
不過這個時空的人們不知道也很正常。
林灰記得前世涉及到自然語言處理這方麵很多重要成果都是2013年、2014年這兩年井噴出來的。
別的不說,前世涉及到文本相似度模型的架構這方麵。
用於計算語義文本相似度的分布式詞向量這項技術就是就是在2013年誕生的。
前世正是在分布式詞向量問世後,語義文本相似度在才取得了突破性的進展。
自此基於深度學習的語義文本相似度計算方法已經逐漸成為該領域的主流方法。
這個時空節奏上慢了兩年,應用分布式詞向量計算文本相似度沒被提出來也很正常。
一步落後步步落後。
節奏上慢這兩年時間的話,這個時空無疑很多方麵都落後了。
不過,這對於林灰無疑是個好消息。
應用分布式詞向量來構建計算文本相似度的方法雖然說起來容易。
但具體闡述起來這個問題其實還是比較複雜的。
因此林灰當初並沒有在郵件中回複伊芙·卡莉。
如果這個時空涉及到文本相似度模型架構方麵的研究都短腿的話。
那林灰豈不是很有義務援助一下?
看來跨時空之搬運工又要上線了。
當然了這種搬運不是無償的。
眼下林灰更關心的還是論文。
在相關研究方向性錯誤的情況下,林灰真要寫論文的話豈不是很容易就能發表好幾篇?
這樣水平的論文林灰寫起來很容易。
雖然林灰前世學術生涯上沒有走太遠,但前前後後發的論文加起來大概有七八篇了。
有幾篇論文還是全英文的。
總之發表論文這樣的事情,對林灰來說已然是輕車熟路。
這種情況下,林灰感覺他很容易就能把麻省理工學院學士學位所要求的附加分刷滿。
盡管如此,林灰還是決定先跟伊芙·卡莉見麵溝通一下再弄論文相關的事情。
畢竟林灰不是很清楚西方世界在文本相似度研究的具體進展,萬一不小心撞車就尷尬了。
商業上的撞車可以美其名曰是商業競爭。
學術上的撞車可是一輩子的汙點。
現在林灰隻希望能夠快點和伊芙·卡莉見麵了。
好在林灰期待的見麵沒多久就發生了。
林灰在北域域北國際機場見到的伊芙·卡莉。
伊芙·卡莉先前怕林灰不相信她的身份,於是在郵件裏附上了一堆能夠佐證身份的證明。
林灰當初就看到過伊芙·卡莉的照片。
不得不說,伊芙·卡莉的樣貌很有辨識度。
一頭金色微卷的長發,1米75的身高,個高不是關鍵,關鍵是身材比例很棒。
盡管以挑剔的眼光來看,林灰覺得伊芙·卡莉的身材和樣貌似乎也能在90分以上。
最關鍵的是給人一種很純真的感覺,給人一種不染纖塵的那種感覺。
呃,這種感覺怎麽說呢,反正很有保護欲那種。
不過林灰還沒那麽不淡定。
女人而已,隻會影響肝論文的速度。
盡管林灰個子挺高的,但伊芙·卡莉似乎還沒發現林灰。
林灰迎著走了上去,主動用英語打招呼道:“你是伊芙·卡莉麽?我就是林灰,歡迎來到中國。”
呃,這幾句程度的英文林灰還是能應付的。
不過眼前這人似乎並沒有反應啊。
林灰感到很奇怪,莫非是搞錯了。
正在林灰很糾結的時候,突然身後傳來的聲音。
“你就是LIN HUI麽?我是伊芙·卡莉,很高興見到你!”
林灰心想,這下尷尬了。
第一次接人還認錯人了。
不過,不應該啊,眼前之人很有辨識度的西方麵孔,而且和伊芙·卡莉先前發來的證件照上那女的一模一樣啊。
林灰不解地回過頭,看向聲音來源,又看到了一個“伊芙·卡莉”。
剛才說話的這個也是一頭金色微卷的長發,1米75的身高,身材比例很棒,同樣研製90以上。
身前身後兩個人一模一樣,就很離譜。
最離譜的是兩人身上氣質特別像,都是很純粹的那種。
林灰:Σ(っ°Д°;)っ
什麽情況???
莫非是雙胞胎不成麽?
林灰又回過頭看了一眼,發現兩人雖然樣貌上很相似。
但氣質上其實是微微有些區別的。
兩個人雖然都是很純粹的氣質,但一個是天真無瑕那種惹人憐愛那種。
另一個則是書卷氣讓人敬重那種。
如此相似的一對雙胞胎送上門來。
林灰當時就有一個很大膽的想法!
……
……
長得這麽像的一對雙胞胎姐妹以後在開發人臉識別算法時不用來做測試樣本可惜了!
第153章 你們是雙胞胎姐妹麽?
林灰突然這樣想到。
事實上,林灰先前就想過發表論文。
不過當時的林灰覺得以一個高中生的身份發表論文或許會有點驚世駭俗,就擱置了這一想法。
但今時不同往日,現在的林灰已經搖身一變成為麻省理工學院計算機科學專業的準大一學生。
有這層身份在,林灰在學術層麵把天捅個窟窿似乎也不過分。
麻省理工學院計算機方麵很弔麽?
當然很弔!
拿世界各地的計算機專業所學的專業課內容來說吧。
幾乎一半的內容都跟麻省理工學院計算機專業有著千絲萬縷的關係。
現在這個時間節點,麻省理工學院的計算機科學專業更是當之無愧的世界第一。
當然了就跟全國第一的高校有兩所一樣。
世界第一的計算機專業也有兩所高校。
除了麻省理工學院之外另一個是斯坦福大學。
兩所學校在計算機方麵可以說是平分秋色。
(一般來講,加州大學伯克利分校計算機也不弱。
不過國人眼中分校一般沒啥存在感)
盡管如此,麻省理工學院依然是世界範圍內入學競爭最大的學府之一。
這樣的學府門檻自然是極高的。
在收到麻省理工學院的入學通知後。
在麻省理工學院的官方網站上林灰看到來自麻省理工學院的公示內容:
今年麻省理工學院校方共收到18356個本科、19446個研究生2014-15學年的入學申請。
分別僅錄取了1447(7.9%)及2991(15.4%)名申請者。
實際就讀的可能更少,畢竟選擇是雙向的。
雖然有的人能被錄取。
但是卻往往很任性的不去了。
這麽做當然很zhuangbility,不過短時間內林灰還是做不到這份任性的。
也沒必要太任性,穩健發育才是硬道理。
此時能夠成為1447名幸運兒中間的一位林灰已經很高興了。
畢竟林灰現在所處的層級已經是不少人一輩子都難以企及的高度了。
就現在這個時間節點而言。
成為麻省理工學院計算機科學專業裏的一員確實是林灰的榮幸。
但與此同時,林灰也清楚地知道。
用不了多久他就會成為麻省理工學院的驕傲。
進入麻省理工學院就讀對於林灰來說僅僅是個開始,未來的路還有很長。
不過,現在想以後的事情還有點遙遠,把握住眼下才是最要緊的。
千裏之行始於足下。
短時間內來看,林灰依舊需要一步一個腳印地往前走。
這樣或許不能走得很快。
但一定會走得很穩。
林灰也必須走得很穩!
縱然林灰不是玩politics的,但在背負著跨時空而來這個大秘密的情況下。
林灰所要走的路容不得行差踏錯。
而就此時而言,林灰在學術上最穩妥的前行辦法就是發表幾篇論文。
即便是發表論文也算不上無中生有。
畢竟林灰先前已經搞定了生成式文本摘要的相關專利了。
申請專利之後再發表幾篇論文作為先前專利的補充說明也是很符合常理的事情。
不過具體該發哪個細分領域的論文呢?
這是個問題。
原本這不該成為一個問題的。
按照林灰最先前的設想,整個生成式文本摘要作為一個成果能在影響因子比較高的刊物上發一篇論文就不錯了。
但林灰萬萬沒想到這個時空裏人們在涉及到自然語言處理這方麵的研究著實慢半拍。
從先前伊芙·卡莉發給林灰的郵件來看。
雖然這個時空西方學術界對於文本摘要的研究傾注了大量心血。
但這個時空西方對於文本摘要方麵的研究進展和前世那個時空的西方對文本摘要的研究情況依舊是有些差別的。
盡管從客觀上講差別不是太大。
但綜合衡量的話,這個時空西方世界對文本摘要的研究情況比前世那個時空節奏要慢兩年。
(至於~國更是不用說,此時的學術界還是習慣摸著鷹醬過河的。
老實說這種做法不完全算錯,可以避免資源浪費。
但總是這樣的話太被動了。
想要當老大,就得敢為天下先)
雖然這個時空在相關領域的研究僅僅是節奏上慢了兩年時間。
但兩年足以改變很多事情了。
更何況,林灰原本就有著七年的信息優勢。
此消彼長之下,林灰就相當於有了接近十年的信息優勢。
或許有人不解,僅僅隻是工作了三年,林灰憑什麽能夠把信息優勢發揮的淋漓盡致。
雖然前世僅僅工作了三年,但林灰說是有六年的工作經驗也不過分。
至於多餘的三年工作經驗哪來的?
這說多了都是淚,加班加出來的。
不過不得不說,這都是“福報”.
這加班多是一件美逝啊。
不是這樣的瘋狂加班林灰哪有能夠重生的機會?
縱然能有重生的機會。
不瘋狂加班林灰怎麽會對那些枯燥的東西記憶如此深刻呢?
不過這些都是前塵往事了。
因為過往的種種經曆,在現在這個時空裏,林灰就是當之無愧的強者。
至於同領域的其他研究者,林灰尊重他們的努力。
但不得不說:抱歉,你們真的好弱欸!
並不是林灰在信口開河。
林灰先前搞得那個生成式文本摘要這個算法所涉及到的全部技術。
如果被這個時空下的研究團隊徹底吃透。
起碼能將這個時空全世界自然語言處理以及神經網絡學習方麵的研究進展加速近一年的時間。
當然這說的是馬上吃透的話,能加速近一年時間。
如果這些研究團隊花了兩三年才搞定相應的進展,那反而是拖累他們正常的進度了。
拋開生成式文本摘要這個專利不談。
僅僅是林灰在弄生成式文本摘要時順手牽羊搞定的那個LH文本摘要準確度衡量模型也夠牛掰的了。
如果這項技術能夠被這個時空的研究團隊所掌握的話,對於他們的研究也是有所助力的。
盡管林灰當初就把如何構建模型表達的已經足夠清楚,就差手把手教了。
(構建模型的話首先要運用語言模型來評估算法生成語言的流暢度,然後使用相似度模型評估文本和摘要之間的語義相關性,最後為了有效評估實體、專有詞的複現程度,引入原文信息量模型來評估。)
但此時的研究人員似乎仍然很好奇林灰是怎麽構建這一衡量標準的。
林灰記得先前伊芙·卡莉在他發的郵件中就表達了對於“LH文本摘要準確度衡量模型”究竟是如何構建的困惑。
林灰記得伊芙·卡莉當初除了好奇林灰是怎麽搞定語料庫這個問題之外。
其困惑主要集中在林灰究竟采用什麽方法架構相似度模型的。
當知道世界最頂尖學府附屬的研究機構的科研人員居然好奇這事,林灰還是意外的。
林灰躊躇滿誌地蓋了一個“華麗的房子”。
原本以為這個時空人們會好奇林灰是怎麽蓋出這個房子的。
沒想到反倒先被問道蓋房子的木頭是從哪開采的?
這就是林灰當初收到伊芙·卡莉郵件時的直觀感受。
不過如果誠如伊芙·卡莉在郵件裏介紹的那般,林灰也能理解伊芙·卡莉為什麽困惑。
涉及到相似度模型的架構一般都是通過計算的方式。
通過計算語義文本相似度以衡量這兩個文本的語義相似度。
一般來說,語義相似度值越小,兩個文本之間的語義差異越大,它們在語義層麵的相似度越低;
反之,該值越大,兩個文本表達的語義越相似。
或許在人們看來,區分相似文本是很簡單的一件事情啊?
這不是隨便讀一下就能搞定麽?
但是要知道區分相似文本不是要人來區分,而是要機器區分相似文本。
涉及到相似度模型的構建確實不是容易的事情,畢竟人類語言表達是極其複雜的。
更遑論大部分專業性比較強的文章裏文本中還存在許多同義詞、縮略語、特指詞和多變的句法結構。
這些都極大地增加了計算文本語義相似度的難度。
但這個問題不解決不行,林灰知道計算文本語義相似度是一個很重要的分支領域。
在信息檢索領域,語義文本相似性計算在文本分類、文本聚類和實體消歧等任務中發揮著重要作用;
在人工智能領域,也需要語義文本相似性算法來支持問答係統和智能檢索等任務。
<a id="wzsy" href="http://m.xiaoshuting.cc">小書亭</a>
此外,語義文本相似性計算也被廣泛用於自然語言處理任務中,如抄襲檢測、文本總結和機器翻譯。
總之,對語義文本相似性算法為代表的相似度模型研究具有重要的應用價值。
如果不解決計算文本語義相似度這個問題的話,跟別提如何更進一步的文本處理了。
拋開讓機器區分相似文本這個問題不談。
僅僅是想要機器識別文本這件事情就極其困難了。
自然語言一般就是說人類能理解的語言,比如看到的文字就是自然語言。
但當我們需要機器或者說計算機處理自然語言時。
機器/計算機卻沒辦法直接理解這些符號(漢字、字母、標點符號等)。
這些符號必須先被數值化,然後才能輸入計算機進行後續處理。
僅僅隻是數值化之後也用途不大。
必須引入其他的一些內容來反應出詞的屬性。
就像我們不能從一個普普通通的代號知道這串數字究竟表示的是訂閱、收藏還是打賞。
總之,僅僅是一個代號是看不出來每串數字對應的屬性的。
這個問題也是計算文本語義相似度的一個研究熱門之一。
如何表示數值化的自然語言相對應的屬性呢?
研究人員一般做法是將數值化的語言矢量化或者說向量化。
向量相比於標量的話就是帶方向的量。
事實上這種研究方向並不算新潮。
林灰記得前世早在1975年,就有研究人員首次提出向量空間模型(VSM),試圖利用該模型來處理數值化的自然語言。
林灰通過搜索相關信息,發現這個時空雖然慢了一點,但VSM向量空間模型這個方法在1977年也被提出來了。
所謂的VSM模型聽起來或許挺高大上的。
其實沒那麽複雜。
其主要思想就是假設一個文本的語義隻與該文本中的單詞有關,而忽略其語序和單詞之間的相互關係,然後通過基於詞頻統計的方法,將文本映射成向量,最後通過向量間的距離計算以表征文本間的相似度。
計算兩個向量之間的距離?
這玩意是高中課本上的內容。
估計高考後腦子裏知識還沒忘記的一般考生都能拿過來利用這個模型算算文本相似度。
不過很多高中生學的時候可能根本不知道他們學的這玩意能做這個。
(ps:……本書有高中讀者吧,你們學的東西很有用,不要覺得暫時看不到用途就放棄)
當然,也正是由於該模型簡單高效。
在該模型提出來之後很長的一段時間裏,它都是文本相似度計算領域的主流方法。
不過該模型並不是沒有缺點。
基於VSM的方法仍然有兩點缺陷:
一方麵當文本量很大時,生成的文本向量是非常稀疏的,這就導致了空間和計算資源的浪費;
另一方麵VSM為達到簡化模型的效果忽略了詞語間的關係,但在很多情況下詞語之間是存在聯係的,因此簡單地認為詞語間相互獨立是不合理的。
這兩條缺陷尤其致命。
第一條直接影響處理相似度的效率,第二條直接影響詞義相似度判別的準確度。
在這種情況下,VSM模型在使用了一段時間之後,研究人員就將這個模型拋棄了。
現在的人們具體應用什麽計算文本相似度林灰也不是很清楚。
不過伊芙·卡莉先前發給林灰的郵件並沒有提到向量有關的內容。
時下的研究人員似乎已經淡忘了向量化。
或許現在再說到利用向量化進行自然語言文本處理似乎是一個很複古的研究方向了。
不過實際上向量化這個方向仍然有潛力可以挖掘。
應用分布式詞向量完全可以進行文本相似度計算。
不過這個時空的人們不知道也很正常。
林灰記得前世涉及到自然語言處理這方麵很多重要成果都是2013年、2014年這兩年井噴出來的。
別的不說,前世涉及到文本相似度模型的架構這方麵。
用於計算語義文本相似度的分布式詞向量這項技術就是就是在2013年誕生的。
前世正是在分布式詞向量問世後,語義文本相似度在才取得了突破性的進展。
自此基於深度學習的語義文本相似度計算方法已經逐漸成為該領域的主流方法。
這個時空節奏上慢了兩年,應用分布式詞向量計算文本相似度沒被提出來也很正常。
一步落後步步落後。
節奏上慢這兩年時間的話,這個時空無疑很多方麵都落後了。
不過,這對於林灰無疑是個好消息。
應用分布式詞向量來構建計算文本相似度的方法雖然說起來容易。
但具體闡述起來這個問題其實還是比較複雜的。
因此林灰當初並沒有在郵件中回複伊芙·卡莉。
如果這個時空涉及到文本相似度模型架構方麵的研究都短腿的話。
那林灰豈不是很有義務援助一下?
看來跨時空之搬運工又要上線了。
當然了這種搬運不是無償的。
眼下林灰更關心的還是論文。
在相關研究方向性錯誤的情況下,林灰真要寫論文的話豈不是很容易就能發表好幾篇?
這樣水平的論文林灰寫起來很容易。
雖然林灰前世學術生涯上沒有走太遠,但前前後後發的論文加起來大概有七八篇了。
有幾篇論文還是全英文的。
總之發表論文這樣的事情,對林灰來說已然是輕車熟路。
這種情況下,林灰感覺他很容易就能把麻省理工學院學士學位所要求的附加分刷滿。
盡管如此,林灰還是決定先跟伊芙·卡莉見麵溝通一下再弄論文相關的事情。
畢竟林灰不是很清楚西方世界在文本相似度研究的具體進展,萬一不小心撞車就尷尬了。
商業上的撞車可以美其名曰是商業競爭。
學術上的撞車可是一輩子的汙點。
現在林灰隻希望能夠快點和伊芙·卡莉見麵了。
好在林灰期待的見麵沒多久就發生了。
林灰在北域域北國際機場見到的伊芙·卡莉。
伊芙·卡莉先前怕林灰不相信她的身份,於是在郵件裏附上了一堆能夠佐證身份的證明。
林灰當初就看到過伊芙·卡莉的照片。
不得不說,伊芙·卡莉的樣貌很有辨識度。
一頭金色微卷的長發,1米75的身高,個高不是關鍵,關鍵是身材比例很棒。
盡管以挑剔的眼光來看,林灰覺得伊芙·卡莉的身材和樣貌似乎也能在90分以上。
最關鍵的是給人一種很純真的感覺,給人一種不染纖塵的那種感覺。
呃,這種感覺怎麽說呢,反正很有保護欲那種。
不過林灰還沒那麽不淡定。
女人而已,隻會影響肝論文的速度。
盡管林灰個子挺高的,但伊芙·卡莉似乎還沒發現林灰。
林灰迎著走了上去,主動用英語打招呼道:“你是伊芙·卡莉麽?我就是林灰,歡迎來到中國。”
呃,這幾句程度的英文林灰還是能應付的。
不過眼前這人似乎並沒有反應啊。
林灰感到很奇怪,莫非是搞錯了。
正在林灰很糾結的時候,突然身後傳來的聲音。
“你就是LIN HUI麽?我是伊芙·卡莉,很高興見到你!”
林灰心想,這下尷尬了。
第一次接人還認錯人了。
不過,不應該啊,眼前之人很有辨識度的西方麵孔,而且和伊芙·卡莉先前發來的證件照上那女的一模一樣啊。
林灰不解地回過頭,看向聲音來源,又看到了一個“伊芙·卡莉”。
剛才說話的這個也是一頭金色微卷的長發,1米75的身高,身材比例很棒,同樣研製90以上。
身前身後兩個人一模一樣,就很離譜。
最離譜的是兩人身上氣質特別像,都是很純粹的那種。
林灰:Σ(っ°Д°;)っ
什麽情況???
莫非是雙胞胎不成麽?
林灰又回過頭看了一眼,發現兩人雖然樣貌上很相似。
但氣質上其實是微微有些區別的。
兩個人雖然都是很純粹的氣質,但一個是天真無瑕那種惹人憐愛那種。
另一個則是書卷氣讓人敬重那種。
如此相似的一對雙胞胎送上門來。
林灰當時就有一個很大膽的想法!
……
……
長得這麽像的一對雙胞胎姐妹以後在開發人臉識別算法時不用來做測試樣本可惜了!
第153章 你們是雙胞胎姐妹麽?