“你的這組數據裏,重複值是怎麽處理的?”
程風推了推眼鏡,偷偷抬頭看了看方豫,訥訥的問道。
這是體育生吧?這是體育生吧?這是體育生吧?
體育生都開始建模了嗎?
方豫一進門,接近一米九的身高和壯碩的身材就帶給程風很大的視覺壓力。
等方豫坐下後,程風更是感覺到方豫身上有種若有若無的威圧感,讓他有一種在麵對導師時的感覺。
方豫隻當程風是個書呆子學長,沒太在意他的異常。
方豫不知道的是,生命本質的連續提升,讓普通人麵對方豫時,會產生一些低位生物麵對高位生物的畏懼。
現在方豫還隻是一個二級法師,等到了更高等級時,這種狀況會更加明顯。
很多不想放棄人類正常社交生活的奧術法師,就會選擇使用類似“溫和之力”手環的道具或奧術封印壓製住自己的上位者氣息。
聽到程風的問題,方豫露出思考的表情:“用pandas的duplicated方法返回一個布爾型series,可以識別重複值,然後用drop函數或keep函數刪除就好了。”
“如果是特征重複的,就要用corr方法計算特征相似度,用method參數指定肯德爾或斯皮爾曼相關係數。”
聽到方豫的回答,程風不由得一愣,這完全出乎他的意料。
雖然程風問的隻是一些基礎的內容,但能獲得如此清晰的回答,也是完全出乎程風自己的意料。
程風仍舊不太敢看方豫,盯著屏幕:“那離群值你又是怎麽識別的?我看到你用winsorizing方法調整了離群值,為什麽用winsorizing而不是用眾數替代或刪除?”
方豫又思考了一下:“對於數值型數據,用箱線圖和直方圖進行識別,當然也可以用describe函數生成的描述信息識別,分類數據,用條形圖識別,還有一部分正態分布數據用3σ準則進行識別。”
“至於說處理,因為刪除離群值會讓樣本數顯著減少,我又不了解後續算法對離群值是否敏感,用眾數替代如果掩蓋了數據的變異性可能會對結果產生影響,所以采用winsorizing方法調整了離群值。”
程風看了看方豫,半天沒說話。
至少在大二的時候,他肯定是沒這個水平的。
別說方豫隻是金融學專業,就算是數學專業的,大二時也不過剛剛開始接觸一些初級的數據結構和基礎編程。最多也就是剛剛開始接觸數據清洗和數據操縱的相關內容。
很多人直到大四,甚至到了研究生進組,還沒搞明白到底如何評估離群值,說不準估著估著,把正常值都當成離群值清洗了。
而方豫剛剛對這兩個基礎問題的回答,雖然簡練,但很明顯已經熟練掌握了清洗數據的相關技能。
更重要的是,他不僅能夠區分處理重複值和離群值的不同方法,還能夠討論不同統計方法的適用場景,並提供具體的代碼實現。
這可就不是一般學生能掌握的了,除非他早就深度參與過一些數據建模的項目。
你特麽玩我呢吧?你這種學金融學的少爺,把應用數學學這麽好幹嗎?有必要嗎?
你們不是應該畢業拚資源去嗎?幹嘛搶我們這些小鎮做題家的飯碗?
而且,你一個金融專業的,是怎麽把數學學這麽好的?平時不上專業課的嗎?
經濟學和金融數學是數學和物理專業的自留地你不知道嗎?
你也不看看,校內的這些教授,哪個本科不是讀的數學和物理?
你一個經濟學院的,跟著湊什麽經濟學的熱鬧啊。
難道這就是真天才和小鎮做題家的差別嗎?
不,你們最大的差別是方豫有掛。
“學長?”方豫疑惑的叫了聲程風。
剛剛的回答中,技術層麵的答案大多數都是柚子通過埃瑟朗之核傳遞過來的,不過方豫還是往裏麵補充了一些觀點性的東西。
“方豫學弟,我沒有……”程風剛說了一半,就聽到實驗室門口傳來一個聲音。
“假如後續采用線性回歸模型,你準備如何處理這組數據中的離群值和特征相似度?”方豫一回頭,就看到童永山正從門口走進來。
而在童永山身後,還有一名身穿旗袍的二十六七歲年輕女子。
女人不算太漂亮,方豫打分的話,長相最多也就能給她打70分。
身材倒是還不錯,能有80分。
但這風情,可是90分的水平。
“老師!師姐。”
“院長好。”
程風趕緊從椅子上站起來,向導師問好。
而方豫,也站起身,禮貌的對自家院長打了個招呼,隨後又向那名被程風稱呼為師姐的年輕女子點了點頭。
旗袍女抿著嘴溫婉一笑,秋波流轉,眼神豔瀲,也沒和方豫做自我介紹,嫋嫋婷婷扭動著腰肢,走到茶水間,開始做咖啡。
“不用客氣,回答問題就好。”童永山自己搬了把椅子也坐在方豫對麵,手中翻著程風打印出來的一疊資料。
方豫不卑不亢的也坐了下來,稍稍考慮了一下:“在線性回歸分析中,離群值可能極大地影響回歸係數和預測的準確性。所以,首先就是要準確的識別離群點。”
“我可能會通過診斷圖,如殘差圖或影響圖,來識別這些離群點。一旦確定了離群值,我更傾向采用穩健的回歸技術來減少這些點的影響。”
“例如使d回歸或進行變換,如對數轉換,以穩定數據的方差並改善模型的整體表現。”
“至於您剛剛提到的特征相似度問題,因為高度相關的解釋變量可能導致多重共線性問題對於線性回歸模型非常重要,因此,如何準確評估特征間的相似度是最重要的問題。”
“在這個問題上,我傾向於使用vif來評估變量間的相互影響。”
“我覺得,探索性因子分析或主成分分析可以在不損失太多信息的前提下,減少數據中的維度,方法得當的話,可能有效地揭示隱藏在數據背後的結構性聯係,從而優化模型的預測能力和解釋力。”
“最後,在特征相似度方麵,從未來趨勢來看,我個人認為不僅要關注傳統的相關係數,還應該考慮時間序列數據的共整合性質或變量間的因果關係。”
“因此,使用機器學習技術如人工神經網絡來揭示變量間複雜的非線性關係,可能是未來最重要的發展方向。”
“院長,我回答完了。”方豫雙目直視童永山,麵色平靜。
聽到方豫的回答,程風不由得倒吸一口涼氣。
如果說之前方豫回答他問題的時候隻展現出了技能熟練度和項目經驗,那現在方豫回答童永山的這個問題,則是徹底超越了一般研究生的學力水平。
一般的碩士研究生,更多的還停留在學習和應用的階段,隻要能夠熟練使用數據處理工具,就已經是一名合格的科研狗。
而剛剛方豫的回答,已經完全超出了這個階段。不止展示出對複雜數據分析理論的深入理解,更展現出相當的原創性研究的能力,以及將技術應用於更寬泛問題解決的能力。
難道這個大二學弟的真實實力,已經是一名博士強者?
真是恐怖如斯!
童永山也忍不住露出明顯的讚賞之情,甚至鼓了兩下掌。
他倒不是被方豫的專業能力嚇到了,在邁國多年,無論是哥大還是賓大抑或mit,都匯聚了這個世界上最頂尖的數理天才,16歲的小孩專業能力吊打博導的也不是一個兩個。
真正讓他驚訝的是方豫居然敢對學術的專業發展方向做出一個方向明確的預估!
如果不是因為童永山從未將自己尚未提交的研究提案透露給任何人,他甚至會懷疑方豫已經偷看了他的研究計劃!
程風這種研究生可能還聽不出什麽,但童永山可不同,剛剛方豫說的最後一段話,簡直讓他頭皮發麻。
是的,剛剛方豫在其中所說的相當一部分內容,正是他已經準備了近三個月的下一個研究方向!
有如伯牙遇子期,作為一名純粹的學者,沒有什麽比遇到知音更讓人激動的了。
“方豫,大二金融學二班,真沒想到我們學院裏還有這樣的學生。好!好!好!”童永山看了一下方豫的資料,擊節讚歎。
童永山自小就不善言辭,能對一個學生一連說出三個好字,還是10年前他在賓大時招收林方東當弟子的時候。
林方東現在已經是經濟學界炙手可熱的超新星,已經進入了高發期,去年一年連發三篇頂五(五大頂刊),眼看就是學術圈的另一山頭。
“老師,咖啡。”剛剛那名90分風情70分相貌的師姐端給童永山一杯冒著熱氣的咖啡,眼神不著聲色的在方豫身上轉了一圈。
“南蓁,來,見見你們小師弟方豫,以後你們就在一起共事了。”童永山哈哈大笑,轉頭對方豫道,“你們的大師姐江南蓁,也是我回國立後新招的博士,你們以後可以多交流。”
“老師,人家方豫學弟還沒同意進組呢。”被叫做南蓁的女子輕笑一聲,笑起來眼角微微上翹。
童永山一拍腦門,不過也沒在意太多。
在他看來,別說一個大二的學生,就算校內的博士,哪怕已經進了其他組,麵對這種機會,都不可能拒絕。
方豫遲疑了一下:“院長,我能問一下咱們組裏有考勤要求嗎?”
童永山一怔,沒想到方豫提了這麽一個問題。
江南蓁目光一閃,淺笑道:“方豫學弟,老師的組裏麵,時間還是挺自由的,不過組會還是要按時參加的,如果平時有事情,可以請假,但事情還是要做好。其實組裏工作量很大,哪怕沒有考勤要求,可能休息的時間都不會太多。”
方豫鬆了一口氣,如果說隻是參加組會,沒有具體的考勤要求,那就好辦了。
至於工作量大?
那不是有柚子嗎。
正好給這個球找點活幹。
也不知道為什麽,現在看到它閑著就不舒服。
“那沒問題,謝謝院長,我隨時都可以進組。”
方豫拍了拍胸脯,撞得胸肌乓乓響。
程風推了推眼鏡,偷偷抬頭看了看方豫,訥訥的問道。
這是體育生吧?這是體育生吧?這是體育生吧?
體育生都開始建模了嗎?
方豫一進門,接近一米九的身高和壯碩的身材就帶給程風很大的視覺壓力。
等方豫坐下後,程風更是感覺到方豫身上有種若有若無的威圧感,讓他有一種在麵對導師時的感覺。
方豫隻當程風是個書呆子學長,沒太在意他的異常。
方豫不知道的是,生命本質的連續提升,讓普通人麵對方豫時,會產生一些低位生物麵對高位生物的畏懼。
現在方豫還隻是一個二級法師,等到了更高等級時,這種狀況會更加明顯。
很多不想放棄人類正常社交生活的奧術法師,就會選擇使用類似“溫和之力”手環的道具或奧術封印壓製住自己的上位者氣息。
聽到程風的問題,方豫露出思考的表情:“用pandas的duplicated方法返回一個布爾型series,可以識別重複值,然後用drop函數或keep函數刪除就好了。”
“如果是特征重複的,就要用corr方法計算特征相似度,用method參數指定肯德爾或斯皮爾曼相關係數。”
聽到方豫的回答,程風不由得一愣,這完全出乎他的意料。
雖然程風問的隻是一些基礎的內容,但能獲得如此清晰的回答,也是完全出乎程風自己的意料。
程風仍舊不太敢看方豫,盯著屏幕:“那離群值你又是怎麽識別的?我看到你用winsorizing方法調整了離群值,為什麽用winsorizing而不是用眾數替代或刪除?”
方豫又思考了一下:“對於數值型數據,用箱線圖和直方圖進行識別,當然也可以用describe函數生成的描述信息識別,分類數據,用條形圖識別,還有一部分正態分布數據用3σ準則進行識別。”
“至於說處理,因為刪除離群值會讓樣本數顯著減少,我又不了解後續算法對離群值是否敏感,用眾數替代如果掩蓋了數據的變異性可能會對結果產生影響,所以采用winsorizing方法調整了離群值。”
程風看了看方豫,半天沒說話。
至少在大二的時候,他肯定是沒這個水平的。
別說方豫隻是金融學專業,就算是數學專業的,大二時也不過剛剛開始接觸一些初級的數據結構和基礎編程。最多也就是剛剛開始接觸數據清洗和數據操縱的相關內容。
很多人直到大四,甚至到了研究生進組,還沒搞明白到底如何評估離群值,說不準估著估著,把正常值都當成離群值清洗了。
而方豫剛剛對這兩個基礎問題的回答,雖然簡練,但很明顯已經熟練掌握了清洗數據的相關技能。
更重要的是,他不僅能夠區分處理重複值和離群值的不同方法,還能夠討論不同統計方法的適用場景,並提供具體的代碼實現。
這可就不是一般學生能掌握的了,除非他早就深度參與過一些數據建模的項目。
你特麽玩我呢吧?你這種學金融學的少爺,把應用數學學這麽好幹嗎?有必要嗎?
你們不是應該畢業拚資源去嗎?幹嘛搶我們這些小鎮做題家的飯碗?
而且,你一個金融專業的,是怎麽把數學學這麽好的?平時不上專業課的嗎?
經濟學和金融數學是數學和物理專業的自留地你不知道嗎?
你也不看看,校內的這些教授,哪個本科不是讀的數學和物理?
你一個經濟學院的,跟著湊什麽經濟學的熱鬧啊。
難道這就是真天才和小鎮做題家的差別嗎?
不,你們最大的差別是方豫有掛。
“學長?”方豫疑惑的叫了聲程風。
剛剛的回答中,技術層麵的答案大多數都是柚子通過埃瑟朗之核傳遞過來的,不過方豫還是往裏麵補充了一些觀點性的東西。
“方豫學弟,我沒有……”程風剛說了一半,就聽到實驗室門口傳來一個聲音。
“假如後續采用線性回歸模型,你準備如何處理這組數據中的離群值和特征相似度?”方豫一回頭,就看到童永山正從門口走進來。
而在童永山身後,還有一名身穿旗袍的二十六七歲年輕女子。
女人不算太漂亮,方豫打分的話,長相最多也就能給她打70分。
身材倒是還不錯,能有80分。
但這風情,可是90分的水平。
“老師!師姐。”
“院長好。”
程風趕緊從椅子上站起來,向導師問好。
而方豫,也站起身,禮貌的對自家院長打了個招呼,隨後又向那名被程風稱呼為師姐的年輕女子點了點頭。
旗袍女抿著嘴溫婉一笑,秋波流轉,眼神豔瀲,也沒和方豫做自我介紹,嫋嫋婷婷扭動著腰肢,走到茶水間,開始做咖啡。
“不用客氣,回答問題就好。”童永山自己搬了把椅子也坐在方豫對麵,手中翻著程風打印出來的一疊資料。
方豫不卑不亢的也坐了下來,稍稍考慮了一下:“在線性回歸分析中,離群值可能極大地影響回歸係數和預測的準確性。所以,首先就是要準確的識別離群點。”
“我可能會通過診斷圖,如殘差圖或影響圖,來識別這些離群點。一旦確定了離群值,我更傾向采用穩健的回歸技術來減少這些點的影響。”
“例如使d回歸或進行變換,如對數轉換,以穩定數據的方差並改善模型的整體表現。”
“至於您剛剛提到的特征相似度問題,因為高度相關的解釋變量可能導致多重共線性問題對於線性回歸模型非常重要,因此,如何準確評估特征間的相似度是最重要的問題。”
“在這個問題上,我傾向於使用vif來評估變量間的相互影響。”
“我覺得,探索性因子分析或主成分分析可以在不損失太多信息的前提下,減少數據中的維度,方法得當的話,可能有效地揭示隱藏在數據背後的結構性聯係,從而優化模型的預測能力和解釋力。”
“最後,在特征相似度方麵,從未來趨勢來看,我個人認為不僅要關注傳統的相關係數,還應該考慮時間序列數據的共整合性質或變量間的因果關係。”
“因此,使用機器學習技術如人工神經網絡來揭示變量間複雜的非線性關係,可能是未來最重要的發展方向。”
“院長,我回答完了。”方豫雙目直視童永山,麵色平靜。
聽到方豫的回答,程風不由得倒吸一口涼氣。
如果說之前方豫回答他問題的時候隻展現出了技能熟練度和項目經驗,那現在方豫回答童永山的這個問題,則是徹底超越了一般研究生的學力水平。
一般的碩士研究生,更多的還停留在學習和應用的階段,隻要能夠熟練使用數據處理工具,就已經是一名合格的科研狗。
而剛剛方豫的回答,已經完全超出了這個階段。不止展示出對複雜數據分析理論的深入理解,更展現出相當的原創性研究的能力,以及將技術應用於更寬泛問題解決的能力。
難道這個大二學弟的真實實力,已經是一名博士強者?
真是恐怖如斯!
童永山也忍不住露出明顯的讚賞之情,甚至鼓了兩下掌。
他倒不是被方豫的專業能力嚇到了,在邁國多年,無論是哥大還是賓大抑或mit,都匯聚了這個世界上最頂尖的數理天才,16歲的小孩專業能力吊打博導的也不是一個兩個。
真正讓他驚訝的是方豫居然敢對學術的專業發展方向做出一個方向明確的預估!
如果不是因為童永山從未將自己尚未提交的研究提案透露給任何人,他甚至會懷疑方豫已經偷看了他的研究計劃!
程風這種研究生可能還聽不出什麽,但童永山可不同,剛剛方豫說的最後一段話,簡直讓他頭皮發麻。
是的,剛剛方豫在其中所說的相當一部分內容,正是他已經準備了近三個月的下一個研究方向!
有如伯牙遇子期,作為一名純粹的學者,沒有什麽比遇到知音更讓人激動的了。
“方豫,大二金融學二班,真沒想到我們學院裏還有這樣的學生。好!好!好!”童永山看了一下方豫的資料,擊節讚歎。
童永山自小就不善言辭,能對一個學生一連說出三個好字,還是10年前他在賓大時招收林方東當弟子的時候。
林方東現在已經是經濟學界炙手可熱的超新星,已經進入了高發期,去年一年連發三篇頂五(五大頂刊),眼看就是學術圈的另一山頭。
“老師,咖啡。”剛剛那名90分風情70分相貌的師姐端給童永山一杯冒著熱氣的咖啡,眼神不著聲色的在方豫身上轉了一圈。
“南蓁,來,見見你們小師弟方豫,以後你們就在一起共事了。”童永山哈哈大笑,轉頭對方豫道,“你們的大師姐江南蓁,也是我回國立後新招的博士,你們以後可以多交流。”
“老師,人家方豫學弟還沒同意進組呢。”被叫做南蓁的女子輕笑一聲,笑起來眼角微微上翹。
童永山一拍腦門,不過也沒在意太多。
在他看來,別說一個大二的學生,就算校內的博士,哪怕已經進了其他組,麵對這種機會,都不可能拒絕。
方豫遲疑了一下:“院長,我能問一下咱們組裏有考勤要求嗎?”
童永山一怔,沒想到方豫提了這麽一個問題。
江南蓁目光一閃,淺笑道:“方豫學弟,老師的組裏麵,時間還是挺自由的,不過組會還是要按時參加的,如果平時有事情,可以請假,但事情還是要做好。其實組裏工作量很大,哪怕沒有考勤要求,可能休息的時間都不會太多。”
方豫鬆了一口氣,如果說隻是參加組會,沒有具體的考勤要求,那就好辦了。
至於工作量大?
那不是有柚子嗎。
正好給這個球找點活幹。
也不知道為什麽,現在看到它閑著就不舒服。
“那沒問題,謝謝院長,我隨時都可以進組。”
方豫拍了拍胸脯,撞得胸肌乓乓響。