雖說趙施言並不覺得自己像淩誌說的那樣誇張,像太陽一樣照耀著周圍的人。但是她同樣沒覺得淩誌在說謊或者應付她,她能感覺得到男生心中的真誠,所以她還是很開心的,誰不喜歡別人誇自己啊。
趴在桌上的她現在想想,她形容淩誌是個“幹淨”的男孩子。剛剛說出口之時,確實是憑借感覺脫口而出的。但現在仔細回憶回憶前兩次的碰麵,她愈發肯定自己的形容十分準確。如果光說外表的話,男孩確實不是長得很帥的那種。單眼皮,小眼睛,戴個眼鏡,甚至還有少許鼻毛和沒刮幹淨的胡子,一看就是一個普通的學生形象。然而他打起台球和聊起台球時的那種認真的眼神,出杆時不急不躁的流暢的動作,讓她覺得打球就應該是如此,而不是摻雜一些別的東西。隻是偶爾對自己好球的誇讚和說自己壞球的運氣差,她覺得十分好笑。
“真是個傻子,每杆沒打好的球都是運氣差嗎?”
趙施言沒好氣地想到。所以,她願意跟這樣的男孩做球友,畢竟球房裏想找到跟自己同水平的姑娘幾乎不可能。不過現在,她覺得她不光願意跟男孩做球友,甚至……
念頭一起,她迅速不自覺地搖了搖頭。她也有著自己的煩惱,隻不過這些被她用她固有的氣場很好地掩飾住了。
過了一會兒,她抬起頭,拍了拍自己的臉蛋。
“嗯,不能再這樣了,這一點都不像我。”
趙施言借住的學姐的宿舍是個單人間,學姐暑假外出實習,而她應該在學姐實習回來前就搬到新宿舍了。她準備用從學姐那裏借來的校園卡洗個澡,希望能順利地忘記煩惱。
……
第二天,淩誌早早來到實驗室。今天周六,實驗室也會有同學過來,但比一般時候來的晚一些。淩誌並沒有像往常一樣打開論文,而是打開一款接單軟件。
自從他學會給自己采集數據之後,淩誌覺得自己的這項技能不能被埋沒啊,於是給自己找了個活兒幹,每周末給一些客戶整理一些公開數據集,不會占據自己太多的時間。
淩誌在線掛了一會兒,今天的第一個客戶出現了。
“您好,在嗎?”
“在的親,請問您想要采集什麽數據呢?”
“您好,請問可以幫忙分析數據嗎?”
分析數據啊,淩誌不是專門做數據分析的,但是能不能做要看情況。如果隻是做一些簡單的統計的話……
“您可以把您的需求發出來,我看看能不能做。”
“好的,我是想計算一下行業內每兩個公司之間的相似度……”
淩誌聽著客戶的需求,也不時提出一些疑問。回答完之後根據數據量給出了一個報價以及預期交付時間,客戶並沒有多砍價,就這麽敲定了。
實際上計算文本相似度的方法有很多,比如統計兩個文本中有沒有詞語同時出現,出現頻率是否相近,標點符號使用頻率是否一致等等。但這些統計都是表層的統計,句子語義深層次的相似度沒有辦法通過這種辦法來計算。比如“開心”和“快樂”是同一語義,相似度為0.97,而“開心”和“傷心”則是相反語義,相似度為0.02。如果用最表層的統計方法是沒辦法得出上述結論的。所以在當下,深度學習方法則成為主要的學習句子深層次語義的方法。
淩誌並不想糊弄客戶,他想既然要做那就盡量做到最好。雖然客戶在這一塊並不是專業的,也並不知道計算相似度都有哪些方法,更沒有去問淩誌打算如何計算,但淩誌依然想用深度學習方法來幫助客戶準確計算每個公司的相似度。
淩誌看著客戶發來的每個公司的代表產品,找到了之前自己訓練好的一份詞向量表,先把產品名用分詞工具分詞,再對應到詞向量表中,最終將兩個公司之間的產品所對應的向量進行兩兩歐氏距離計算,最終一平均得到了每一對公司之間的相似度……
感覺也不複雜,但是不知不覺一天就過去了。淩誌整理了一下數據,發給了客戶。
“您好,相似度的計算已經搞好了,您看您還滿意麽?”
過了一會兒,客戶回複道:
“[拱手]整理得太細致了,謝謝您。不過您是怎麽計算相似度的呢?如果方便的話能不能告訴我一下,我想寫進我的介紹推文裏。”
“哦哦,其實也不複雜,我用的是詞向量計算的,而詞向量是用深度學習方法訓練出來的……”
淩誌仔細地打了一大段文字,大概介紹了一下原理,沒有說得太細。實際上詞向量的訓練過程是深度神經網絡根據詞的上下文來推斷出來的,比如說,“開心”這個詞周圍經常出現的詞匯與“傷心”就截然不同。所以深度語義,本質上也是由他的上下文來決定的。這也是淩誌大致解釋給客戶的內容。
至於如何根據上下文推導出詞向量,上下文的範圍界定到底有多廣,淩誌就沒有細講,講了客戶也不關心,他隻會挑重點說。
“謝謝您哈,對了,其實我這邊還有一大批數據需要計算相似度,您能不能教我使用代碼呢?這樣以後我就不用麻煩您了。”
教代碼啊。淩誌有些腦殼疼,倒也不是說不行,隻不過教不是計算機行業的人運行代碼可能會出現各種各樣的小問題。但他也沒有拒絕,這種需求都是常態,一般客戶要了數據之後,如果想要代碼,淩誌都會免費給他,而且還耐心地教客戶安裝各種環境。
“也行,我給您發個文檔,您先按裏麵的說明安裝一下。”
淩誌把以前寫好的文檔簡單改改,發了過去。
過了一會兒。
“不好意思,我這邊安裝gensim包的時候報錯了,……”
“哦哦,那可能是下載源的問題,……”
“這個地址斜杠後麵是不是需要空格?……”
客戶不斷地詢問著各種問題,淩誌也耐心回答著,最後總算是幫客戶搞定了。
“謝謝,麻煩您了。”
“不客氣,應該的。”
淩誌看看表,該吃晚飯了,反正已經加了客戶微信,有什麽事再說。
……
晚上7點,淩誌拿起自己剛買的《字母表謎案》,準備進入自己的懸疑世界。看了沒幾頁,手機震動了一下。淩誌打開手機,發現客戶又給自己發了信息:
“不好意思,晚上再打擾您一下,我覺得我之前設計的表格格式不太美觀,因為我一開始也沒想好,還得麻煩您再幫我排一下版。……”
之後淩誌收到了客戶發給自己的圖例,表示按照這個格式來排版。
倒也不是很麻煩,淩誌打開了自己的電腦,開始加班,很快就重新設計好了。
“哇塞,您太給力了,這麽晚您還能及時幫我,太謝謝了。”
“沒事沒事,應該的。”
淩誌想了想,又厚顏加了一句:
“如果您不嫌麻煩的話,可以給我個20字以上好評哦。”
“必須的,非常滿意,必須好評。”
“嗯嗯,謝謝您支持[笑臉]”
應該算是結束了吧,淩誌笑著搖了搖頭。一般他不會主動要好評,除非感覺客戶很滿意的時候。想一想自己這習慣是什麽時候養成的呢?
淩誌不知道,但他想起了另外一些事。自己逛其他店麵的時候,有時候谘詢的問題多了,客服回複的速度就很慢,亦或簡單地回應一句“做不了”,你在屏幕前麵生悶氣也沒辦法。太多的案例,曆曆在目。淩誌不敢保證自己的服務百分百滿意,但是他依然想讓自己盡量做到最好,因為他不想成為自己一度很討厭的那類人。所以即便是客戶連自己的需求都沒搞清楚,隻要大體方向他能get到,剩下的就是幫助客戶耐心地完善細節,他也因此收獲了一些經常找他幫忙的老客戶。
過了一會兒,他收到了客戶的評價:“非常好的一次購物體驗,工作人員編寫的代碼很專業,對於如何運行程序也有詳細的說明,整個服務過程十分有耐心,即便是非工作時間也盡心盡責。”
客戶覺得遇到了一個耐心的我,我覺得也遇到了一個禮貌的客戶。淩誌想道。
……
第二天,淩誌邊打開接單軟件,邊閱讀論文。不一會兒就有生意上門了。
“您好,我想問一下您這邊有高端外圍的數據麽?”
淩誌看到這句話,雖然他不懂什麽叫外圍,但他微微覺得有些不妙。但出於禮貌,還是回應道:
“您好,我們沒有這種數據,您有相關數據的網站嗎?如果是公開數據集的話我可以幫您采集。”
“那個,方便加下微信麽,有些內容不方便在平台上說。”
淩誌那種不妙的感覺更甚,但他沒有拒絕的理由,於是掃了客戶的微信。
“這種數據現在都很稀缺的,拿到的話能賣到不少錢。”
“哦哦,什麽是高端外圍啊,我該怎麽找您需要的數據呢?”
“你上網上搜一下就知道。”
淩誌搜了一下,雖然他已經有預感,但是看到第一條結果,還是馬上驗證了他的想法。他馬上回複客戶說:
“您好,這類數據我們是不允許采集的,不好意思。”
這個客戶似乎不死心,滔滔不絕地而又自顧自地宣傳著這種數據的珍貴性,最終似乎覺得對麵不動心,於是便沒了回複。
淩誌長舒了一口氣,還真是林子大了什麽鳥都有,灰色地帶的東西絕對不能碰啊。
趴在桌上的她現在想想,她形容淩誌是個“幹淨”的男孩子。剛剛說出口之時,確實是憑借感覺脫口而出的。但現在仔細回憶回憶前兩次的碰麵,她愈發肯定自己的形容十分準確。如果光說外表的話,男孩確實不是長得很帥的那種。單眼皮,小眼睛,戴個眼鏡,甚至還有少許鼻毛和沒刮幹淨的胡子,一看就是一個普通的學生形象。然而他打起台球和聊起台球時的那種認真的眼神,出杆時不急不躁的流暢的動作,讓她覺得打球就應該是如此,而不是摻雜一些別的東西。隻是偶爾對自己好球的誇讚和說自己壞球的運氣差,她覺得十分好笑。
“真是個傻子,每杆沒打好的球都是運氣差嗎?”
趙施言沒好氣地想到。所以,她願意跟這樣的男孩做球友,畢竟球房裏想找到跟自己同水平的姑娘幾乎不可能。不過現在,她覺得她不光願意跟男孩做球友,甚至……
念頭一起,她迅速不自覺地搖了搖頭。她也有著自己的煩惱,隻不過這些被她用她固有的氣場很好地掩飾住了。
過了一會兒,她抬起頭,拍了拍自己的臉蛋。
“嗯,不能再這樣了,這一點都不像我。”
趙施言借住的學姐的宿舍是個單人間,學姐暑假外出實習,而她應該在學姐實習回來前就搬到新宿舍了。她準備用從學姐那裏借來的校園卡洗個澡,希望能順利地忘記煩惱。
……
第二天,淩誌早早來到實驗室。今天周六,實驗室也會有同學過來,但比一般時候來的晚一些。淩誌並沒有像往常一樣打開論文,而是打開一款接單軟件。
自從他學會給自己采集數據之後,淩誌覺得自己的這項技能不能被埋沒啊,於是給自己找了個活兒幹,每周末給一些客戶整理一些公開數據集,不會占據自己太多的時間。
淩誌在線掛了一會兒,今天的第一個客戶出現了。
“您好,在嗎?”
“在的親,請問您想要采集什麽數據呢?”
“您好,請問可以幫忙分析數據嗎?”
分析數據啊,淩誌不是專門做數據分析的,但是能不能做要看情況。如果隻是做一些簡單的統計的話……
“您可以把您的需求發出來,我看看能不能做。”
“好的,我是想計算一下行業內每兩個公司之間的相似度……”
淩誌聽著客戶的需求,也不時提出一些疑問。回答完之後根據數據量給出了一個報價以及預期交付時間,客戶並沒有多砍價,就這麽敲定了。
實際上計算文本相似度的方法有很多,比如統計兩個文本中有沒有詞語同時出現,出現頻率是否相近,標點符號使用頻率是否一致等等。但這些統計都是表層的統計,句子語義深層次的相似度沒有辦法通過這種辦法來計算。比如“開心”和“快樂”是同一語義,相似度為0.97,而“開心”和“傷心”則是相反語義,相似度為0.02。如果用最表層的統計方法是沒辦法得出上述結論的。所以在當下,深度學習方法則成為主要的學習句子深層次語義的方法。
淩誌並不想糊弄客戶,他想既然要做那就盡量做到最好。雖然客戶在這一塊並不是專業的,也並不知道計算相似度都有哪些方法,更沒有去問淩誌打算如何計算,但淩誌依然想用深度學習方法來幫助客戶準確計算每個公司的相似度。
淩誌看著客戶發來的每個公司的代表產品,找到了之前自己訓練好的一份詞向量表,先把產品名用分詞工具分詞,再對應到詞向量表中,最終將兩個公司之間的產品所對應的向量進行兩兩歐氏距離計算,最終一平均得到了每一對公司之間的相似度……
感覺也不複雜,但是不知不覺一天就過去了。淩誌整理了一下數據,發給了客戶。
“您好,相似度的計算已經搞好了,您看您還滿意麽?”
過了一會兒,客戶回複道:
“[拱手]整理得太細致了,謝謝您。不過您是怎麽計算相似度的呢?如果方便的話能不能告訴我一下,我想寫進我的介紹推文裏。”
“哦哦,其實也不複雜,我用的是詞向量計算的,而詞向量是用深度學習方法訓練出來的……”
淩誌仔細地打了一大段文字,大概介紹了一下原理,沒有說得太細。實際上詞向量的訓練過程是深度神經網絡根據詞的上下文來推斷出來的,比如說,“開心”這個詞周圍經常出現的詞匯與“傷心”就截然不同。所以深度語義,本質上也是由他的上下文來決定的。這也是淩誌大致解釋給客戶的內容。
至於如何根據上下文推導出詞向量,上下文的範圍界定到底有多廣,淩誌就沒有細講,講了客戶也不關心,他隻會挑重點說。
“謝謝您哈,對了,其實我這邊還有一大批數據需要計算相似度,您能不能教我使用代碼呢?這樣以後我就不用麻煩您了。”
教代碼啊。淩誌有些腦殼疼,倒也不是說不行,隻不過教不是計算機行業的人運行代碼可能會出現各種各樣的小問題。但他也沒有拒絕,這種需求都是常態,一般客戶要了數據之後,如果想要代碼,淩誌都會免費給他,而且還耐心地教客戶安裝各種環境。
“也行,我給您發個文檔,您先按裏麵的說明安裝一下。”
淩誌把以前寫好的文檔簡單改改,發了過去。
過了一會兒。
“不好意思,我這邊安裝gensim包的時候報錯了,……”
“哦哦,那可能是下載源的問題,……”
“這個地址斜杠後麵是不是需要空格?……”
客戶不斷地詢問著各種問題,淩誌也耐心回答著,最後總算是幫客戶搞定了。
“謝謝,麻煩您了。”
“不客氣,應該的。”
淩誌看看表,該吃晚飯了,反正已經加了客戶微信,有什麽事再說。
……
晚上7點,淩誌拿起自己剛買的《字母表謎案》,準備進入自己的懸疑世界。看了沒幾頁,手機震動了一下。淩誌打開手機,發現客戶又給自己發了信息:
“不好意思,晚上再打擾您一下,我覺得我之前設計的表格格式不太美觀,因為我一開始也沒想好,還得麻煩您再幫我排一下版。……”
之後淩誌收到了客戶發給自己的圖例,表示按照這個格式來排版。
倒也不是很麻煩,淩誌打開了自己的電腦,開始加班,很快就重新設計好了。
“哇塞,您太給力了,這麽晚您還能及時幫我,太謝謝了。”
“沒事沒事,應該的。”
淩誌想了想,又厚顏加了一句:
“如果您不嫌麻煩的話,可以給我個20字以上好評哦。”
“必須的,非常滿意,必須好評。”
“嗯嗯,謝謝您支持[笑臉]”
應該算是結束了吧,淩誌笑著搖了搖頭。一般他不會主動要好評,除非感覺客戶很滿意的時候。想一想自己這習慣是什麽時候養成的呢?
淩誌不知道,但他想起了另外一些事。自己逛其他店麵的時候,有時候谘詢的問題多了,客服回複的速度就很慢,亦或簡單地回應一句“做不了”,你在屏幕前麵生悶氣也沒辦法。太多的案例,曆曆在目。淩誌不敢保證自己的服務百分百滿意,但是他依然想讓自己盡量做到最好,因為他不想成為自己一度很討厭的那類人。所以即便是客戶連自己的需求都沒搞清楚,隻要大體方向他能get到,剩下的就是幫助客戶耐心地完善細節,他也因此收獲了一些經常找他幫忙的老客戶。
過了一會兒,他收到了客戶的評價:“非常好的一次購物體驗,工作人員編寫的代碼很專業,對於如何運行程序也有詳細的說明,整個服務過程十分有耐心,即便是非工作時間也盡心盡責。”
客戶覺得遇到了一個耐心的我,我覺得也遇到了一個禮貌的客戶。淩誌想道。
……
第二天,淩誌邊打開接單軟件,邊閱讀論文。不一會兒就有生意上門了。
“您好,我想問一下您這邊有高端外圍的數據麽?”
淩誌看到這句話,雖然他不懂什麽叫外圍,但他微微覺得有些不妙。但出於禮貌,還是回應道:
“您好,我們沒有這種數據,您有相關數據的網站嗎?如果是公開數據集的話我可以幫您采集。”
“那個,方便加下微信麽,有些內容不方便在平台上說。”
淩誌那種不妙的感覺更甚,但他沒有拒絕的理由,於是掃了客戶的微信。
“這種數據現在都很稀缺的,拿到的話能賣到不少錢。”
“哦哦,什麽是高端外圍啊,我該怎麽找您需要的數據呢?”
“你上網上搜一下就知道。”
淩誌搜了一下,雖然他已經有預感,但是看到第一條結果,還是馬上驗證了他的想法。他馬上回複客戶說:
“您好,這類數據我們是不允許采集的,不好意思。”
這個客戶似乎不死心,滔滔不絕地而又自顧自地宣傳著這種數據的珍貴性,最終似乎覺得對麵不動心,於是便沒了回複。
淩誌長舒了一口氣,還真是林子大了什麽鳥都有,灰色地帶的東西絕對不能碰啊。