“哎呀,這麽晚了啊!抱歉抱歉,學長,我身邊沒什麽人跟我一起聊懸疑小說,今天遇到同好了就忍不住聊太多了。耽誤你看球了,真的很抱歉。”
“沒事啊,錄像什麽時候都能看,同好難求,我聊的也很開心,反倒要謝謝你。”
“哈哈哈[握手]。那今天就聊到這吧,也不早了,不打擾學長啦。”
“沒打擾,沒打擾。那晚安。”
“晚安[月亮]”
淩誌放下手機,心滿意足。不過旋即想起來對峰哥有點愧疚,於是登錄電腦微信,把陳峰發給他的數據下載下來,看看有多少量。
這時候,陳峰和高峰剛好聯袂回到宿舍。
“淩子,我給你發的數據看到了沒?你覺得好不好篩?”
所謂篩數據,實際上就是將特征不明顯的圖片刪掉。比如某些眼球的病變區域小點密布,那就是明顯特征。有些似有非有,就不是明顯特征,不利於模型的訓練過程,需要刪掉。
“額,我還在看。對了,你一下發給我2000張圖,這也太難頂了吧。”
淩誌試圖轉移話題,不讓陳峰發現自己其實還沒篩。事實上淩誌知道陳峰已經很辛苦了,他手上有上萬張圖片,而隻給了自己2000張,他自己的工作量才是最重的。
陳峰也沒有察覺到什麽,自顧自地回答說:
“哦哦,沒事沒事兒,你慢慢篩,不急。篩多少算多少,到時候把篩過的給我就行。”
“那行,我知道了。”
淩誌鬆了口氣,不過也暗自下定決心一定幫陳峰篩完。
在見識過陳峰處理數據集之前,淩誌一直都覺得這是個費力不討好的活兒,應該很消耗精力。而事實上,在某一次喊他一起吃飯時。
“我去,你這刪數據刪得這麽麻溜的嘛。”
隻見陳峰用鼠標連續選中了一行圖片,沒有絲毫猶豫地刪除了。
“這太明顯了啊,我看了這麽多圖,感覺視野不是很清晰的一律幹掉,省得折磨自己。”
倒也不是說他這麽幹不好,但淩誌知道如果是自己的話,肯定會一張圖一張圖地挨個看過去。某些圖不確定要不要刪,可能還要來回看好多遍才能下決定。不過話雖這麽說,數據基數的龐大決定了即便是他這麽去幹,也不免要消耗大量的時間和精力。但即便如此,淩誌並不打算改變自己篩數據的風格。
淩誌先去洗了個澡,洗完之後才發現林奇鬆也回來了,四人一天的科研生活都暫時告一段落。
“高峰,你上次陪老吳給本科生上課上得怎麽樣啊,後來也沒聽你說過。”
林奇鬆問道。
“哦哦,那個啊,別提了,上課那天簡直是車禍現場你知道麽。”
高峰站了起來,對著林奇鬆說道。我跟陳峰也挺感興趣,坐在自己的座位上側耳傾聽著。
“那天上課他自己都沒準備好,對著ppt說的話我都聽不大懂,有時候都不知道說啥。本科生預計來聽他講課的不少,大多都是想保研的學生。結果那天也不知道為啥有一小半沒來,中間還走了兩個,當時看得我直想笑。”
“哇!那老吳豈不是全程很尷尬?”
“那倒沒有,他講他的,底下學生聽不聽他也不管。”
“唉,你說我倆當時為啥就選了他當導師?”
“我也不知道啊,誰叫某人當時跟我極力宣傳老吳的豐功偉績的。”
“我當時也不知道啊,也沒問往屆的學長姐,看他官網介紹還行,就推薦給你了。”
“唉,我們也隻能認命了,本科生不像我們,我們換導師成本很大,本科生就很隨意,說不來就不來了。”
淩誌也有同感,導師選沒選對,對於自己的研究生生涯至關重要。而對於自己的導師王海波,淩誌還是很滿意的。老王並不是網上一些選導師帖子裏提到的那種“放羊”導師,所謂“放羊”就是指不管學生,讓其自生自滅,這樣的導師顯然是不負責的。而如果硬是給老王管理學生的模式定個性的話,淩誌覺得“半放養”是比較合適的。老王對於你自身的研究想法,實驗細節不會過多幹涉,但他會從大的方麵把握你研究思路的準確性,以及研究進度的快慢,顯然是一位負責任的導師。總結來說就是平時不咋管你,但你自己要讓他對你研究啥心裏有數。
淩誌覺得自己顯然是幸運的,在過去一年的相處中,淩誌覺得王導和藹可親,雖然免不了有時候會有長輩的架子,但大多數時候還是平易近人的。想想網上流傳的那些碩博們被某些嚴苛的、不負責任的導師逼上畢不了業的絕路,有些甚至會輕生,淩誌覺得自己很幸運,盡管當初自己選王導的時候也是兩眼一抹黑。
“所以你看麽,跟老吳坐在一間小小的實驗室壓力有多大。特別是坐在他旁邊的杜曜,整天愁眉苦臉。”
高峰說道。
林奇鬆無奈搖了搖頭,轉過頭打開電腦,開始看自己的紀錄片。
一夜無話。
第二天一早,是淩誌他們實驗室每周一度的組會。
淩誌早早來到實驗室,把旁邊會議室的投影儀布置好,然後把自己做的ppt拷進去,今天他要分享論文。
不一會兒,師門同學們陸陸續續都來到了實驗室,緊接著,導師王海波也到了。
淩誌的導師王海波40出頭,今年剛剛評上了教授,正是誌得意滿的時候。聽說家裏的小兒子也剛剛出生,正是雙喜臨門之時。雖然在計算機領域深耕多年,但並沒有拚過頭,頭頂的平頭發型還是鬱鬱蔥蔥。行走在路上時總是腳步帶風,看見誰都一副笑眯眯的樣子。就是年紀逐漸上來了,頸椎經常性地不舒服,淩誌想什麽時候有機會在教師節送王導一個按摩儀試試看,也算報答王導的教育之恩。
“今天有沒有人分享的?”
淩誌沒有猶豫,說道:
“老師,我來吧。”
淩誌打開自己的ppt,毫不怯場地講道:
“今天給大家分享一下我最近階段性的實驗結果以及論文。”
……
“這是我的數據預處理過程,我大致分為了5個步驟,……”
“這是我對句子對匹配的實驗結果,兩個句子屬於同一人所發布即為正樣本,不是同一人即為負樣本。……”
“你先等下,你分類所用的特征都有哪些?”
老王問道。
“哦哦,我一會兒會詳細說,我現在僅僅是先把結果拋出來。……”
“這個正樣本和負樣本的叫法合不合理嘞?這個實驗結果你們覺得怎麽樣?”
老王跟大家討論了一陣,然後讓淩誌繼續。
“我使用的特征是一個14個維度的向量,包括人工提取的特征和神經網絡提取的特征。……”
淩誌講ppt沿用了老王以前對學生們的教導——多用圖表,少用文字,淩誌深以為然。事實上ppt本來就是用來突出重點的,如果往上麵堆砌太多文字的話,講者容易對著ppt念,聽者也會覺得乏味,不會自己思考。而用圖片和少量文字突出重點,就比較容易讓聽眾們接受。
正如接下來淩誌分享的論文,用一張圖說明了一句話中每個詞之間的遠近關係。
“比如現在有兩句話,‘他對媒體發表言論’以及‘他出席了新聞發布會’。雖然這兩句話意思很接近,但我們如何用程序來進行打分判斷呢?我們應當將第一句話中的‘他’所對應的詞向量跟第二句話中的每個詞進行對比,找出意義最接近的那個。後麵以此類推,‘媒體’對應‘新聞發布會’,‘發表’對應‘出席’。就這樣通過詞向量之間相似度的計算,進而合並為兩個句子之間的相似度。”
淩誌展示出兩個句子之間的相似度:0.912,大家很容易地理解了兩個句子之間的相似度是如何計算出的,因為圖上每個詞之間的距離遠近都非常清晰。
之後淩誌開始解釋一些技術細節,包括每個詞的詞向量如何計算出來等等。
作為主講人,淩誌非常清楚講解時需要詳略得當,所以不會過多闡述細節,隻用圖表解釋了文章的核心思想。所以講好ppt確實不容易,細節不能太過深入,但也不能一帶而過,把握好一個度是很重要的。
隨著淩誌分享完,說聲謝謝後,會議室裏大家不自覺地響起了掌聲。淩誌有時候會注意到,一般在對大眾講話時,結尾加一句“謝謝”,會讓觀眾們不由自主地鼓掌。然而大家給他鼓掌並不是單純捧他場,而是確實覺得淩誌講得好。
“不錯,實驗過程和細節講的很清楚,問題也分析的到位,論文也很值得借鑒。行,下一個,還有誰要講?”
淩誌長舒一口氣,坐到其他位置上。有一個剛考上研究生,提前進來實驗室的師弟站了起來,打開了自己的ppt。
“額,各位師兄師姐好,今天我想來講一篇論文,題目叫……”
很明顯有點緊張,不過淩誌一點也不在意,當初自己也是這麽過來的嘛。
“這篇論文的算法是這樣的,……”
“你等會兒,都跟你們講過了,不要把原論文列出的算法英文偽代碼直接貼到ppt裏麵,你們這樣做誰會去看啊,那麽複雜。你應該像淩誌那樣畫圖表現出來,這樣別人看起來才覺得簡單易懂,知道了嗎?不要讓我一再強調。”
“哦哦,抱歉老師,我以後一定注意。”
“行,那你繼續。”
於是師弟戰戰兢兢地講完了自己的論文,也不知道大家聽沒聽懂,最怕空氣突然安靜。
淩誌沒覺得師弟有多差,差的話也就不會坐在那裏了,隻不過第一次講解ppt,可能考慮不到觀眾們的感受。雖然自己也沒聽懂多少,但也不是很在意,反正也不是自己的研究方向。真要是跟自己密切相關,那就私下裏重讀論文,自己去理解。
想起剛進實驗室時候的自己,那時候參加組會,聽師兄師姐們講解ppt聽得暈暈乎乎的,組會之後狂查資料彌補概念。現在想想,倒不是看不起當初的自己,事實上了解自己不了解的概念也是很重要的。隻不過自己當初的心態太過著急了,完全可以慢慢來。
不知不覺組會已經來到11點,老王又說了幾句場麵話,上午的組會就宣告結束。
“沒事啊,錄像什麽時候都能看,同好難求,我聊的也很開心,反倒要謝謝你。”
“哈哈哈[握手]。那今天就聊到這吧,也不早了,不打擾學長啦。”
“沒打擾,沒打擾。那晚安。”
“晚安[月亮]”
淩誌放下手機,心滿意足。不過旋即想起來對峰哥有點愧疚,於是登錄電腦微信,把陳峰發給他的數據下載下來,看看有多少量。
這時候,陳峰和高峰剛好聯袂回到宿舍。
“淩子,我給你發的數據看到了沒?你覺得好不好篩?”
所謂篩數據,實際上就是將特征不明顯的圖片刪掉。比如某些眼球的病變區域小點密布,那就是明顯特征。有些似有非有,就不是明顯特征,不利於模型的訓練過程,需要刪掉。
“額,我還在看。對了,你一下發給我2000張圖,這也太難頂了吧。”
淩誌試圖轉移話題,不讓陳峰發現自己其實還沒篩。事實上淩誌知道陳峰已經很辛苦了,他手上有上萬張圖片,而隻給了自己2000張,他自己的工作量才是最重的。
陳峰也沒有察覺到什麽,自顧自地回答說:
“哦哦,沒事沒事兒,你慢慢篩,不急。篩多少算多少,到時候把篩過的給我就行。”
“那行,我知道了。”
淩誌鬆了口氣,不過也暗自下定決心一定幫陳峰篩完。
在見識過陳峰處理數據集之前,淩誌一直都覺得這是個費力不討好的活兒,應該很消耗精力。而事實上,在某一次喊他一起吃飯時。
“我去,你這刪數據刪得這麽麻溜的嘛。”
隻見陳峰用鼠標連續選中了一行圖片,沒有絲毫猶豫地刪除了。
“這太明顯了啊,我看了這麽多圖,感覺視野不是很清晰的一律幹掉,省得折磨自己。”
倒也不是說他這麽幹不好,但淩誌知道如果是自己的話,肯定會一張圖一張圖地挨個看過去。某些圖不確定要不要刪,可能還要來回看好多遍才能下決定。不過話雖這麽說,數據基數的龐大決定了即便是他這麽去幹,也不免要消耗大量的時間和精力。但即便如此,淩誌並不打算改變自己篩數據的風格。
淩誌先去洗了個澡,洗完之後才發現林奇鬆也回來了,四人一天的科研生活都暫時告一段落。
“高峰,你上次陪老吳給本科生上課上得怎麽樣啊,後來也沒聽你說過。”
林奇鬆問道。
“哦哦,那個啊,別提了,上課那天簡直是車禍現場你知道麽。”
高峰站了起來,對著林奇鬆說道。我跟陳峰也挺感興趣,坐在自己的座位上側耳傾聽著。
“那天上課他自己都沒準備好,對著ppt說的話我都聽不大懂,有時候都不知道說啥。本科生預計來聽他講課的不少,大多都是想保研的學生。結果那天也不知道為啥有一小半沒來,中間還走了兩個,當時看得我直想笑。”
“哇!那老吳豈不是全程很尷尬?”
“那倒沒有,他講他的,底下學生聽不聽他也不管。”
“唉,你說我倆當時為啥就選了他當導師?”
“我也不知道啊,誰叫某人當時跟我極力宣傳老吳的豐功偉績的。”
“我當時也不知道啊,也沒問往屆的學長姐,看他官網介紹還行,就推薦給你了。”
“唉,我們也隻能認命了,本科生不像我們,我們換導師成本很大,本科生就很隨意,說不來就不來了。”
淩誌也有同感,導師選沒選對,對於自己的研究生生涯至關重要。而對於自己的導師王海波,淩誌還是很滿意的。老王並不是網上一些選導師帖子裏提到的那種“放羊”導師,所謂“放羊”就是指不管學生,讓其自生自滅,這樣的導師顯然是不負責的。而如果硬是給老王管理學生的模式定個性的話,淩誌覺得“半放養”是比較合適的。老王對於你自身的研究想法,實驗細節不會過多幹涉,但他會從大的方麵把握你研究思路的準確性,以及研究進度的快慢,顯然是一位負責任的導師。總結來說就是平時不咋管你,但你自己要讓他對你研究啥心裏有數。
淩誌覺得自己顯然是幸運的,在過去一年的相處中,淩誌覺得王導和藹可親,雖然免不了有時候會有長輩的架子,但大多數時候還是平易近人的。想想網上流傳的那些碩博們被某些嚴苛的、不負責任的導師逼上畢不了業的絕路,有些甚至會輕生,淩誌覺得自己很幸運,盡管當初自己選王導的時候也是兩眼一抹黑。
“所以你看麽,跟老吳坐在一間小小的實驗室壓力有多大。特別是坐在他旁邊的杜曜,整天愁眉苦臉。”
高峰說道。
林奇鬆無奈搖了搖頭,轉過頭打開電腦,開始看自己的紀錄片。
一夜無話。
第二天一早,是淩誌他們實驗室每周一度的組會。
淩誌早早來到實驗室,把旁邊會議室的投影儀布置好,然後把自己做的ppt拷進去,今天他要分享論文。
不一會兒,師門同學們陸陸續續都來到了實驗室,緊接著,導師王海波也到了。
淩誌的導師王海波40出頭,今年剛剛評上了教授,正是誌得意滿的時候。聽說家裏的小兒子也剛剛出生,正是雙喜臨門之時。雖然在計算機領域深耕多年,但並沒有拚過頭,頭頂的平頭發型還是鬱鬱蔥蔥。行走在路上時總是腳步帶風,看見誰都一副笑眯眯的樣子。就是年紀逐漸上來了,頸椎經常性地不舒服,淩誌想什麽時候有機會在教師節送王導一個按摩儀試試看,也算報答王導的教育之恩。
“今天有沒有人分享的?”
淩誌沒有猶豫,說道:
“老師,我來吧。”
淩誌打開自己的ppt,毫不怯場地講道:
“今天給大家分享一下我最近階段性的實驗結果以及論文。”
……
“這是我的數據預處理過程,我大致分為了5個步驟,……”
“這是我對句子對匹配的實驗結果,兩個句子屬於同一人所發布即為正樣本,不是同一人即為負樣本。……”
“你先等下,你分類所用的特征都有哪些?”
老王問道。
“哦哦,我一會兒會詳細說,我現在僅僅是先把結果拋出來。……”
“這個正樣本和負樣本的叫法合不合理嘞?這個實驗結果你們覺得怎麽樣?”
老王跟大家討論了一陣,然後讓淩誌繼續。
“我使用的特征是一個14個維度的向量,包括人工提取的特征和神經網絡提取的特征。……”
淩誌講ppt沿用了老王以前對學生們的教導——多用圖表,少用文字,淩誌深以為然。事實上ppt本來就是用來突出重點的,如果往上麵堆砌太多文字的話,講者容易對著ppt念,聽者也會覺得乏味,不會自己思考。而用圖片和少量文字突出重點,就比較容易讓聽眾們接受。
正如接下來淩誌分享的論文,用一張圖說明了一句話中每個詞之間的遠近關係。
“比如現在有兩句話,‘他對媒體發表言論’以及‘他出席了新聞發布會’。雖然這兩句話意思很接近,但我們如何用程序來進行打分判斷呢?我們應當將第一句話中的‘他’所對應的詞向量跟第二句話中的每個詞進行對比,找出意義最接近的那個。後麵以此類推,‘媒體’對應‘新聞發布會’,‘發表’對應‘出席’。就這樣通過詞向量之間相似度的計算,進而合並為兩個句子之間的相似度。”
淩誌展示出兩個句子之間的相似度:0.912,大家很容易地理解了兩個句子之間的相似度是如何計算出的,因為圖上每個詞之間的距離遠近都非常清晰。
之後淩誌開始解釋一些技術細節,包括每個詞的詞向量如何計算出來等等。
作為主講人,淩誌非常清楚講解時需要詳略得當,所以不會過多闡述細節,隻用圖表解釋了文章的核心思想。所以講好ppt確實不容易,細節不能太過深入,但也不能一帶而過,把握好一個度是很重要的。
隨著淩誌分享完,說聲謝謝後,會議室裏大家不自覺地響起了掌聲。淩誌有時候會注意到,一般在對大眾講話時,結尾加一句“謝謝”,會讓觀眾們不由自主地鼓掌。然而大家給他鼓掌並不是單純捧他場,而是確實覺得淩誌講得好。
“不錯,實驗過程和細節講的很清楚,問題也分析的到位,論文也很值得借鑒。行,下一個,還有誰要講?”
淩誌長舒一口氣,坐到其他位置上。有一個剛考上研究生,提前進來實驗室的師弟站了起來,打開了自己的ppt。
“額,各位師兄師姐好,今天我想來講一篇論文,題目叫……”
很明顯有點緊張,不過淩誌一點也不在意,當初自己也是這麽過來的嘛。
“這篇論文的算法是這樣的,……”
“你等會兒,都跟你們講過了,不要把原論文列出的算法英文偽代碼直接貼到ppt裏麵,你們這樣做誰會去看啊,那麽複雜。你應該像淩誌那樣畫圖表現出來,這樣別人看起來才覺得簡單易懂,知道了嗎?不要讓我一再強調。”
“哦哦,抱歉老師,我以後一定注意。”
“行,那你繼續。”
於是師弟戰戰兢兢地講完了自己的論文,也不知道大家聽沒聽懂,最怕空氣突然安靜。
淩誌沒覺得師弟有多差,差的話也就不會坐在那裏了,隻不過第一次講解ppt,可能考慮不到觀眾們的感受。雖然自己也沒聽懂多少,但也不是很在意,反正也不是自己的研究方向。真要是跟自己密切相關,那就私下裏重讀論文,自己去理解。
想起剛進實驗室時候的自己,那時候參加組會,聽師兄師姐們講解ppt聽得暈暈乎乎的,組會之後狂查資料彌補概念。現在想想,倒不是看不起當初的自己,事實上了解自己不了解的概念也是很重要的。隻不過自己當初的心態太過著急了,完全可以慢慢來。
不知不覺組會已經來到11點,老王又說了幾句場麵話,上午的組會就宣告結束。