伊芙·卡莉雖然一時有點難以接受這個事實,但她很快將心情平複下來。
無論是零和博弈也好,還是非零和博弈也罷。
雖然在和LIN HUI的競爭中她們團隊落敗了,但她輸的心服口服。
LIN HUI的算法無論是在實際表現效率上還是算法理論上都是碾壓式的領先,而不是領先一點半點。
如果隻領先一點半點,那或許是僥幸而已,但碾壓式的領先則意味著無法質疑的實力差距。
對此伊芙·卡莉認識的很深刻,LIN HUI提出來的生成式摘要算法甚至開創了一些前所未有的細分領域研究。
比較容易知道的全新細分領域有自然語言處理的情感分析。
這個方向對於以前隻進行過抽取式文本摘要研究的伊芙·卡莉來說是個全新的課題。
但這遠遠不是全部,LIN HUI提出來的生成式摘要算法應該還會涉及很多開創性的東西。
但由於管中窺豹的原因,伊芙·卡莉暫時還不清楚LIN HUI的算法具體涉及到多少開創性的研究。
雖然不清楚具體涉及多少個全新細分領域。
但伊芙·卡莉憑借科研人的直覺,LIN HUI的算法保守估計要涉及到五六個開創性的細分領域研究。
然而也正是因此,讓伊芙·卡莉很不理解。
明明LIN HUI的算法領先那麽多,為什麽還要尋求很多“低級”專利的收購呢?
伊芙·卡莉看了下專利網站上LIN HUI灰謀求收購的那幾個專利。
似乎都很“低級”的樣子。
說到低級和高級之分,專利本身拿出來並沒有低級和高級的分別。
但在一個研究體係中卻因負責的分工不同所處的層次不同會出現低級和高級之分。
在LIN HUI提出了生成式文本摘要算法之後。
現在的自動文摘實現方法主要分為抽取式方法和生成式方法。
經過近期對生成式摘要算法技術路線的研究伊芙·卡莉已經能夠很容易的理解生成式文本摘要和傳統抽取式文本摘要的區別。
所謂的抽取式摘要是從原始文檔中提取關鍵文本單元來組成摘要。
而生成式摘要則是根據對輸入原始文本的理解來形成摘要,生成式摘要模型試圖去理解文本的內容,可以生成原文中沒有的單詞,更加接近摘要的本質,具有生成高質量摘要的潛力。
雖然這兩者在具體摘要上略有區別,但此二者本質上都是自動文本摘要。
既然二者都是自動文本摘要,那麽這兩者的技術框架就都可以概括為:
內容表示→權重計算→內容選擇→內容組織。
Ⅰ內容表示是將原始文本劃分為文本單元的過程,主要是分字、詞、句等預處理工作;
內容表示的主要目的是通過預處理將原始文本處理成算法容易進行分析的形式。
Ⅱ權重計算則是要對文本單元(即預處理後原始文本)計算相應的權重評分,權重的計算方式多樣,如基於特征評分、序列標注、分類模型等提取內容特征計算權重。
這個步驟的目的是通過這一係列計算完成對預處理後的原始文本實現初步分析。
Ⅲ內容選擇是對經過計算權重後的文本單元(即經過步驟Ⅱ權重分析過的文本)選擇相應的文本單元子集組成摘要候選集,可根據要求的摘要長度、線性規劃、次模函數、啟發式算法等選擇文本單元;
Ⅳ內容組織是指對候選集的內容進行整理形成最終摘要,可根據字數要求按順序輸出,也有研究者提出使用基於語義信息、模板和深度學習的方法來產生符合要求的摘要。
(ps:……通俗理解的話,Ⅱ有點類似於進行文章閱讀概括的時候,找出關鍵段落;
Ⅲ類似於在Ⅱ的基礎上進一步找出關鍵句、關鍵詞的過程;
Ⅳ則類似於確定關鍵句、關鍵詞之後用合適的語言形成最終閱讀概括的過程)
<a id="ads" href="/">【本站首發,最快更新】</a>
從技術框架的這幾個層次的對應描述來看,可以看出無論是權重計算還是內容選擇抑或是內容組織此三者都是很重要的。
如果搞不定權重計算和內容選擇的話則根本搞不清楚摘要的時候具體對文本哪些地方進行摘要。
畢竟一篇文章不是所有的地方都是重點,就像我們進行閱讀概括的時候,一般都會將注意力放在首段末段和每段開頭結尾處,可以說權重計算和內容選擇所起的作用就是判斷要處理的文本的對應文本特征點主要集中在什麽位置。
如果搞不定內容組織的話即便能夠找出文本特征最密集的地方也沒辦法得到合理通順的文本摘要。
內容表示相對於此三者則顯得不怎麽重要。
正因為上述的分工,如果涉及到文本摘要的東西要分層次的話。
那麽和權重計算、內容選擇、內容組織這三者相關的專利都可以說是文本摘要這個體係中的高級專利。
而和內容表示有關的專利則是低級專利。
而《文本判斷甄別比較的一種新方法》本質上是用來甄別原始文本的。
按照剛才的介紹這無疑是屬於和內容表示這個層次的。
就這麽一項“低級”專利,
伊芙·卡莉實在搞不懂LIN HUI是為什麽尋求購買這樣的專利。
莫非真如埃瓦爾德·切瑞所言LIN HUI在乎的不是《文本判斷甄別比較的一種新方法》算法專利本身。
LIN HUI在乎的是搞定那個專利的她?
怎麽可能?如果隻是對她感興趣,那完全可以直接跟她聯係。
畢竟想找到科研工作者的聯係方式是很容易的。
伊芙·卡莉猜測了幾種可能,也沒猜測出合理的解釋。
……
盡管有點難以理解。
不過最終伊芙·卡莉還是將《文本判斷甄別比較的一種新方法》這項專利賣給LIN HUI了。
畢竟賣家要思考的問題隻是買家出價合不合適,而不是思考買家為什麽買。
此外,伊芙·卡莉注意到林灰先前求購的專利裏已經有一個專利分別以50萬美元的價格成功進行轉讓了。
雖然這個專利的價值不如她的專利價值高,但售賣者卻是阿西萊·維拉斯克斯。
伊芙·卡莉記得這個人是穀歌研究院(Gle AI的前身)高級研究員。
說實話,伊芙·卡莉此前之所以糾結要不要出手這個專利並不是擔心自己少賺了錢,主要是擔心造成負麵影響。
可現在穀歌內部內部的人都不擔心因為專利轉讓造成的負麵影響,她還有什麽好在乎的。
至於《文本判斷甄別比較的一種新方法》這個專利有沒有潛在價值這個問題已經不重要了。
伊芙·卡莉倒是蠻期待這個她無論怎樣都沒看出有什麽價值的專利能夠在LIN HUI手上煥發出新的生機。
或許LIN HUI會證明沒有低級的專利,隻有有低級的眼光吧。
無論是零和博弈也好,還是非零和博弈也罷。
雖然在和LIN HUI的競爭中她們團隊落敗了,但她輸的心服口服。
LIN HUI的算法無論是在實際表現效率上還是算法理論上都是碾壓式的領先,而不是領先一點半點。
如果隻領先一點半點,那或許是僥幸而已,但碾壓式的領先則意味著無法質疑的實力差距。
對此伊芙·卡莉認識的很深刻,LIN HUI提出來的生成式摘要算法甚至開創了一些前所未有的細分領域研究。
比較容易知道的全新細分領域有自然語言處理的情感分析。
這個方向對於以前隻進行過抽取式文本摘要研究的伊芙·卡莉來說是個全新的課題。
但這遠遠不是全部,LIN HUI提出來的生成式摘要算法應該還會涉及很多開創性的東西。
但由於管中窺豹的原因,伊芙·卡莉暫時還不清楚LIN HUI的算法具體涉及到多少開創性的研究。
雖然不清楚具體涉及多少個全新細分領域。
但伊芙·卡莉憑借科研人的直覺,LIN HUI的算法保守估計要涉及到五六個開創性的細分領域研究。
然而也正是因此,讓伊芙·卡莉很不理解。
明明LIN HUI的算法領先那麽多,為什麽還要尋求很多“低級”專利的收購呢?
伊芙·卡莉看了下專利網站上LIN HUI灰謀求收購的那幾個專利。
似乎都很“低級”的樣子。
說到低級和高級之分,專利本身拿出來並沒有低級和高級的分別。
但在一個研究體係中卻因負責的分工不同所處的層次不同會出現低級和高級之分。
在LIN HUI提出了生成式文本摘要算法之後。
現在的自動文摘實現方法主要分為抽取式方法和生成式方法。
經過近期對生成式摘要算法技術路線的研究伊芙·卡莉已經能夠很容易的理解生成式文本摘要和傳統抽取式文本摘要的區別。
所謂的抽取式摘要是從原始文檔中提取關鍵文本單元來組成摘要。
而生成式摘要則是根據對輸入原始文本的理解來形成摘要,生成式摘要模型試圖去理解文本的內容,可以生成原文中沒有的單詞,更加接近摘要的本質,具有生成高質量摘要的潛力。
雖然這兩者在具體摘要上略有區別,但此二者本質上都是自動文本摘要。
既然二者都是自動文本摘要,那麽這兩者的技術框架就都可以概括為:
內容表示→權重計算→內容選擇→內容組織。
Ⅰ內容表示是將原始文本劃分為文本單元的過程,主要是分字、詞、句等預處理工作;
內容表示的主要目的是通過預處理將原始文本處理成算法容易進行分析的形式。
Ⅱ權重計算則是要對文本單元(即預處理後原始文本)計算相應的權重評分,權重的計算方式多樣,如基於特征評分、序列標注、分類模型等提取內容特征計算權重。
這個步驟的目的是通過這一係列計算完成對預處理後的原始文本實現初步分析。
Ⅲ內容選擇是對經過計算權重後的文本單元(即經過步驟Ⅱ權重分析過的文本)選擇相應的文本單元子集組成摘要候選集,可根據要求的摘要長度、線性規劃、次模函數、啟發式算法等選擇文本單元;
Ⅳ內容組織是指對候選集的內容進行整理形成最終摘要,可根據字數要求按順序輸出,也有研究者提出使用基於語義信息、模板和深度學習的方法來產生符合要求的摘要。
(ps:……通俗理解的話,Ⅱ有點類似於進行文章閱讀概括的時候,找出關鍵段落;
Ⅲ類似於在Ⅱ的基礎上進一步找出關鍵句、關鍵詞的過程;
Ⅳ則類似於確定關鍵句、關鍵詞之後用合適的語言形成最終閱讀概括的過程)
<a id="ads" href="/">【本站首發,最快更新】</a>
從技術框架的這幾個層次的對應描述來看,可以看出無論是權重計算還是內容選擇抑或是內容組織此三者都是很重要的。
如果搞不定權重計算和內容選擇的話則根本搞不清楚摘要的時候具體對文本哪些地方進行摘要。
畢竟一篇文章不是所有的地方都是重點,就像我們進行閱讀概括的時候,一般都會將注意力放在首段末段和每段開頭結尾處,可以說權重計算和內容選擇所起的作用就是判斷要處理的文本的對應文本特征點主要集中在什麽位置。
如果搞不定內容組織的話即便能夠找出文本特征最密集的地方也沒辦法得到合理通順的文本摘要。
內容表示相對於此三者則顯得不怎麽重要。
正因為上述的分工,如果涉及到文本摘要的東西要分層次的話。
那麽和權重計算、內容選擇、內容組織這三者相關的專利都可以說是文本摘要這個體係中的高級專利。
而和內容表示有關的專利則是低級專利。
而《文本判斷甄別比較的一種新方法》本質上是用來甄別原始文本的。
按照剛才的介紹這無疑是屬於和內容表示這個層次的。
就這麽一項“低級”專利,
伊芙·卡莉實在搞不懂LIN HUI是為什麽尋求購買這樣的專利。
莫非真如埃瓦爾德·切瑞所言LIN HUI在乎的不是《文本判斷甄別比較的一種新方法》算法專利本身。
LIN HUI在乎的是搞定那個專利的她?
怎麽可能?如果隻是對她感興趣,那完全可以直接跟她聯係。
畢竟想找到科研工作者的聯係方式是很容易的。
伊芙·卡莉猜測了幾種可能,也沒猜測出合理的解釋。
……
盡管有點難以理解。
不過最終伊芙·卡莉還是將《文本判斷甄別比較的一種新方法》這項專利賣給LIN HUI了。
畢竟賣家要思考的問題隻是買家出價合不合適,而不是思考買家為什麽買。
此外,伊芙·卡莉注意到林灰先前求購的專利裏已經有一個專利分別以50萬美元的價格成功進行轉讓了。
雖然這個專利的價值不如她的專利價值高,但售賣者卻是阿西萊·維拉斯克斯。
伊芙·卡莉記得這個人是穀歌研究院(Gle AI的前身)高級研究員。
說實話,伊芙·卡莉此前之所以糾結要不要出手這個專利並不是擔心自己少賺了錢,主要是擔心造成負麵影響。
可現在穀歌內部內部的人都不擔心因為專利轉讓造成的負麵影響,她還有什麽好在乎的。
至於《文本判斷甄別比較的一種新方法》這個專利有沒有潛在價值這個問題已經不重要了。
伊芙·卡莉倒是蠻期待這個她無論怎樣都沒看出有什麽價值的專利能夠在LIN HUI手上煥發出新的生機。
或許LIN HUI會證明沒有低級的專利,隻有有低級的眼光吧。