這是實時爬取的數據嗎?怎麽可能?


    柚子科技怎麽可能有這麽大的數據中心和帶寬?


    別說隻是拿了10億邁元投資的柚子科技,就算是目前現金流已經基本回正的大米,想要投一個搜索引擎,也是天方夜譚般的事情!


    “實時抓取?柚子科技的帶寬和服務器夠嗎?”


    雷君完全想不通,柚子科技這個y搜,是怎麽實現的。


    搜索引擎發展到了今天,無論是羅伯特李的超鏈技術和古狗基層的pagerank技術,本質都是通過網絡爬蟲從一個或多個著名網站開始,不斷地通過各種網頁鏈接爬取網頁並讀取網頁內容。


    抓取到的網頁內容並不是直接用於搜索,而是被分析、提取出頁麵中的關鍵信息,如文本內容、標題、關鍵詞、鏈接等後,存儲在搜索引擎的索引庫中。


    這個索引庫就像是一本互聯網內容的目錄,幫助搜索引擎在用戶發起查詢時迅速找到相關的頁麵。


    羅伯特李的超鏈技術和pagerank不同的是,羅伯特李解決的是爬取的方式問題,而pagerank解決的是為網頁賦權的問題。


    具有相同內容的兩個網頁,來自白屋的網頁和來自非洲一個小孩的個人網頁,權重顯然是不同的。


    古狗的pagerank通關算法,將這些網頁進行賦權,算出哪些網頁更有價值,那麽這些網頁就更容易被搜到。


    這兩種技術,也是當今搜索引擎最底層的技術,幾乎所有搜索引擎都是建立在這兩種技術之上的。


    但這就帶來一個問題。


    帶寬和無比龐大的數據庫問題。


    帶寬決定了搜索引擎的爬取速度和用戶體驗速度,而數據庫決定了搜索結果的準確性和豐富性。


    每秒鍾互聯網上都會有無數新的網頁誕生,爬下來的鏈接數據庫存在哪裏?需要多大的服務器空間?


    雖然隻是存儲連接和內容索引,但整個互聯網網頁量太大了,僅僅隻是這一小部分,就不是哪個小企業能夠承受的。


    古狗每年光是花在服務器新增、更新、維護上的錢就多達七十億邁元,而且這筆錢每年都在增加。


    古狗和千尋都是在互聯網蠻荒時代就已經進入這個領域的創業者,在一開始,不需要投入太多的服務器資源,就能夠把互聯網上所有的網頁鏈接全都爬一遍。


    但現在可不是,經過十幾年的發展,互聯網已經變成了一個龐然巨物,互聯網用戶已經超過34億人,占全球人口的45%。


    如果去掉學齡前尚未真正注冊互聯網賬戶的幼兒和對互聯網完全沒有認知的高齡老人,占比可能已經超過了65%。


    現在互聯網上的數據量之大,可想而知。


    古狗和千尋這種搜索引擎巨頭,是隨著互聯網一步步成長起來的,他們的營收增速比互聯網的增長還要快,自然能夠不停地加大投入,來增設新的服務器,響應用戶需求。


    這也是這個行業為什麽沒有新入局者的原因。


    這完全是一個積累型的行業,護城河非常深,根本不是一般公司能跨越的。


    想要憑借搜索體驗、內容豐富度、搜索精準度等產品力指標推翻古狗或千尋的統治,唯一的辦法就是某個巨頭或大佬,不計回報的投入數百億邁元,爬取整個互聯網的內容,通過精妙的算法,才能做出一個和千尋或古狗在產品力上能掰手腕的搜索引擎出來。


    這也隻是能掰掰手腕,是否能真的超過千尋和古狗,還不好說。


    也正因為如此,基於成本方麵的考量,搜索引擎不會為每個網頁設定統一的爬取頻率。


    爬蟲會根據網頁的重要性、更新頻率、網站的爬取策略來動態調整抓取頻率。


    重要的網頁,比如各個新聞網站和搜索引擎自己的新聞中心,可能幾分鍾就會重新爬取一次,而不常更新的頁麵可能幾天、幾周甚至幾個月才被重新抓取一次。


    但剛剛雷君和周授茲所看到的y搜,針對於一些普遍認為不應當被頻繁抓取的網頁,也進行了抓取不說,抓到的結果,還是幾分鍾之前的。


    例如,其中有一篇寫於大嘴的自媒體文章,發表於5分鍾之前。


    這種自媒體一般來說搜索引擎抓取的頻率會非常低,除非類似在頭條裏麵搜頭條號這種垂直類型的搜索能搜出來,否則用千尋或古狗都是搜不出來的。


    就像這個網頁就是如此,因為抓取頻率的問題,這篇文章用千尋和古狗都搜不出來。


    但y搜就是給搜出來了,而且這篇文章的質量還不低。


    難道說正好趕上y搜爬這個鏈接了?


    那未免也太巧了吧?


    “y搜不算完全的實時搜索,它和傳統的搜索引擎技術實際是兩個方向。”方豫把煙在煙灰缸裏掐滅。


    他煙癮不重,選在室外和雷君還有周授茲見麵,就是因為雷君是個老煙槍,一天兩包,新鎬室內全麵禁煙,這種帶室外區的咖啡廳談事情對煙民比較有利。


    “y搜所用的搜索技術和傳統搜索技術完全不同,傳統的搜索技術是下載鏈接後對鏈接賦權索引建立數據庫。”


    “而y搜,是通過大模型分析學習目前互聯網上十七億個網頁的數據連接,針對於哪些鏈接的質量可能更高進行概率性的判定,依據這種概率,給出搜索結果。”


    “因此,y搜並不需要特別多的服務器來存儲這些網頁具體數據,隻是這些鏈接的索引都被大模型‘學習’了而已。我們隻需要儲存鏈接就可以了。”(注1)


    “當用戶進行搜索的時候,大模型會自動依據用戶的意圖或自己的判斷,給出其認為符合用戶需求的鏈接。”


    “至於說爬取頻率的問題,其實這並沒有這麽難,根據intelivestats實時數據,互聯網目前有13億網頁,其中百分之五十都是空鏈接或失效鏈接。”


    “去掉這些,隻有六億多,六億的鏈接中,又有接近四個億網頁是‘非活躍網站’。”


    “橘子的算法是依據‘數據標記’進行判斷,已經爬取的‘數據標記’並未改變的情況下並不會重複爬取,在‘數據標記’被改變後,橘子大模型才會主動爬取更新的網頁,確保自身的數據處於最新,同時再新建一個‘數據標記’。”


    “這種技術的好處在於,我們不需要像千尋和古狗一樣,建立那麽多那麽大的數據中心。”


    “一個占地兩萬平米的單層數據中心,應該就足夠滿足全大周用戶的搜索需求,投入可能隻相當於古狗的百分之一不到,目前y搜使用的是阿狸雲。”


    “當然,如果還要開發其他業務的話,比如目前的千尋和古狗的網盤、百科、文庫、地圖、郵件等功能,還是需要很大的數據中心來做支撐。”


    “另外這個技術還有一個好處就是非常便於審核和過濾,在審核過濾規則確定的情況下,y搜可以更為精準的過濾需要審核的信息,避免誤傷。”


    “ai時代,未被汙染的數據太重要了,但現在大周互聯網上的周文數據汙染情況過於嚴重,訓練大模型的效果很差。”


    “這其中相當一部分是由於審核誤傷所導致的,造成周文數據可訓練度差,因此在y搜的算法之下,可以精準識別需要過濾的搜索結果,降低97.98%的數據誤傷。”


    “這一條雖然短時間內看不出來什麽,但時間長了,對整個大周的互聯網數據資源都有相當大的好處。”


    “帶寬和千尋目前的帶寬需求相差不大,畢竟數據的傳輸和返回都是需要帶寬的,但這部分成本對於搜索引擎來說,占比本身就不大。”


    “這種技術最大的難點在於,大多數網頁的變化是難以精確預估的,且需要一個可靠的爬取策略來保持數據的時效性,並且保障鏈接和生成索引之間的準確性。”


    “但好在,在這方麵我們取得了一些突破,當然,具體的算法涉及機密,就不和二位介紹了。”


    “正因為各方麵的成本都節省了,即使y搜不上市,我也能維持這個搜索引擎的正常運營。”


    雷君看著方豫的手機屏幕,就像在看外星人:“你的意思是,y搜是一個偽裝成搜索引擎的大模型?”


    短短幾個月時間,ai就把搜索引擎行業顛覆了?


    這是什麽樣的進化速度!?


    有可能做到嗎?


    如果是真的,那下一個即將被顛覆的行業又是哪一個?


    雷君突然感覺有些慶幸,還好自己的小米選擇的是硬件創業,能成為ai的載體。


    如果當初選擇進入什麽移動互聯網軟件創新領域,現在估計已經開始擔心的睡不著覺了吧?


    方豫立刻糾正雷君的說法:“不,隻能算是融合了ai功能的搜索引擎。”


    過猶不及,把ai融合進搜索引擎是一回事,但搜索引擎本身就是ai大模型是另一回事。


    現在大多數人對ai還處於知道有這回事,但還沒有切身感受的階段。


    這時候如果他們發現自己日常使用的搜索功能從根本上的運行邏輯都變了,必然會對ai產生警惕心理。


    到時候,說不準搞出什麽事情來。


    方豫言辭懇切:“涉及尚未公開的技術信息,因為信任雷總不是喜歡八卦的人,才會告訴雷總,還請雷總幫我保密。”


    雷君苦笑兩聲,他現在還真的有點相信方豫的確是沒想讓y搜上市了。


    這種模式下,運營一個全網覆蓋的搜索引擎門檻被大幅拉低了,就算柚子科技這種剛剛邁入獨角獸的初創公司,同樣也能進入這個領域。


    不,不能算是被拉低了,能夠構建和預訓練出一個這樣的大模型本身就是門檻。


    尤其方豫所說的那幾個算法,理論上是可行的,但也隻是理論上。


    如果這幾個算法這麽容易搞,還有千尋和古狗什麽事兒啊,這兩家公司早就被顛覆了。


    但居然就被柚子科技這麽一個小公司搞出來了!


    再轉頭看看周授茲,雷君在自己的小兄弟的眼神中看到了從未見到的熱切和企盼。


    雷君心裏歎了口氣,倒是沒有怪周授茲。


    任誰看了這種完全顛覆未來的願景,也不可能不動心。


    “小方同學,如果是這樣的話,也並不是一定要授茲過去吧?你不上市,授茲去了沒有用武之地,千尋和古狗應該有很多更適合的人才。”


    悄無聲息間,雷君又改變了對方豫的稱呼,用手摸摸口袋。


    “對了,聽說偽軟的路齊現在已經離職了,千尋正在努力接觸。如果你現在和他聯係,他應該會很感興趣才對。”


    “千尋的袁山君和劉安臨最近據說也在看外麵的機會,他們對搜索引擎這個領域的業務更熟悉,而且也是千尋商業化的功臣。”


    袁山君?劉安臨?這兩個貨就是被我逼的出來找工作的,我怎麽可能會要他們?


    千尋的技術人員還是不錯的,管理層?嗬嗬,算了吧,上梁不正下梁歪,路早就走偏了。


    至於路齊……


    偽軟大周這幫運營的人太喜歡玩夜總會,也太喜歡搞女同事,跟金融圈似的。


    雖說路齊一直在偽軟總部吧,但他要是來了,難保不從偽軟大周招幾個高管進來。


    幾個喜歡搞女同事和玩夜總會的高管一來,風氣可就帶壞了。


    自己說千尋上梁不正下梁歪,別到最後y搜的風氣還不如千尋。


    方豫對很多外企職業經理人非常不感冒。


    這些人自詡打開國際視野,實際上隻會誇誇其談,在螺獅殼裏做道場,在公司既定體質之下閃轉騰挪,依靠平台資源做的雖然不錯就認為是自己的能力。


    實則狗屁不是。


    方大強有一段時間從幾個外企挖了不少職業經理人,給的待遇相對他們在外企基本都是翻番,而且有的翻了三番,並且給了他們充足的權力。


    結果這幫人到了之後第一時間就開始玩圈子,排除異己,隨後就開始摟錢。


    外企不是沒有強人,這些人的基礎素質和能力肯定比很多民企職業經理人強的多,但不代表他們能把這個能力用在伱的公司上。


    “如果覺得千尋的人不行,也可以從古狗找,古狗的菲利普施耐德在運營管理上很有一套,我此前在普魯士的漢堡見過他。”


    雷君看上去宅男,實際察言觀色的能力非常強,依稀看出方豫對這兩個人不感冒,開始推薦古狗的副總裁。


    方豫笑了笑,又給雷君遞了一支煙:“雷總,y搜這個職位不招非周裔,但也不準備找具有大周背景的周裔。”


    “坦白說,除了能力出眾,授茲兄的背景也是我想要讓他來y搜的一大原因。授茲兄,我有話直說,得罪之處見諒。”


    說罷,方豫對周授茲抱歉的笑了笑。


    周授茲有點懵。


    背景?我有什麽背景?我老婆倒是有點背景,但和it也不搭噶啊。


    雷君腦中靈光一閃:“你想出海!?”


    方豫啪的打了個響指,嘿嘿一笑:“bingo!不愧是雷總。”


    雷君兩根手指夾著煙,擺了擺,煙灰掉褲子上又趕緊用手撣。


    “難怪你把y域名弄到手後,還把why域名買下來,原來是想要國際市場。”


    雷君感歎了一聲。


    “如果說出海的話,授茲的確是個不錯的人選,他的李家坡背景確實適合開拓東南雅和巴拉特次大陸市場。”


    方豫不置可否的笑了笑,看了看周授茲:“授茲兄,怎麽樣?有興趣嗎?你這個級別我也不用和你談什麽待遇問題,雷總能給得起的,我也能。”


    周授茲明顯已經非常心動,這可是遠比運作大米ipo更具有吸引力的工作!


    大米做到頭,上市當天也就是千億左右的市值。


    而且隨著三喪停止給大米供貨,今年大米產能問題和米5的產品力問題肯定會造成大米銷量下滑,到時候估值多少就不好說了。


    但也正因為如此,現在如果離開大米,就有點太不厚道了。


    如果雷總不同意,有了芥蒂,對自己的口碑不利啊。


    周授茲目光閃動,看了看雷君。


    與此同時,方豫也看了看正用手腕支著下巴的雷君。


    “雷總,ipo確實對大米來說很重要,但這個工作並不是隻有授茲兄才能做。”


    “隻要大米能夠盈利,並且展現出品牌提升,能夠成為手機行業第四極的勢頭,大把的專業人才都能操作這件事。”


    “之前我就說過,雷總是我一直很敬佩的企業家和創業者,我不想我們之間的合作存在芥蒂,所以我提前沒和授茲兄做過任何溝通,今天搞的授茲兄有些尷尬,雷總也有些為難。”


    “這樣吧,雷總,我可以給你一個承諾,柚子科技未來和任何其他手機品牌在ai係統化上的合作,我給他們的報價都會比給你的高30%-50%,我們可以簽署最低價協議,有效期五年。”


    !!!


    雷君身體一震,想說什麽但卻又沒說。


    方豫了然一笑:“雷總你和授茲兄可以商量一下,我今天先回去,授茲兄,考慮好了的話,給我回個電話,我先去買個單。”


    方豫拿起手機,站起身,轉身剛要去買單,突然又想起來什麽,啪的拍了下腦門。


    “雷總,你們10月要發布的大米mix和note2的代言人定了嗎?能不能賣我個麵子?”


    作為大米的核心合作夥伴,方豫當然知道大米下半年的產品規劃。


    雷君一愣,這是品牌策略部門的事情,他此前剛剛聽了李萬鏘的匯報,倒是有幾分印象。


    “note2主打商務,正在和梁超偉接洽。mix好像他們想要找那個誰來著,就是剛從高麗回來的那個,挺帥的,吳……”


    “梅也平。”周授茲在旁邊提醒了一句。


    雷君拍拍腦門,自嘲道:“瞧我這記性,對,沒錯,就是他,說他現在的流量很大,年輕人都很喜歡他,對mix的黑科技設定能起到幫助。”


    梅也平?


    “雷總,能不能mix給楊蜜?note2給熱葩?”


    幫大蜜蜜談,也不能忘了熱葩啊,一碗水得端平。


    方豫根本沒說諸如:不能換代言人的話也沒事,我就是幫忙問一句,這種水詞。


    對於方豫和雷君這種級別的人來說,這種事情,根本不重要,也就是一句話的事情。


    無非是看願不願意說這句話。


    而且,對於大米來說,選誰當代言人,也同樣不重要。


    買大米的都是圖性價比或粉絲,基本盤說白了就是屌絲,追星的誰買大米啊。


    也不知道誰選的梅也平,喜歡他的都是女的,你選他當代言人,女的該不買你的手機還是不買。


    你大米基本盤就是年輕的男性屌絲,選個美女當代言,至少能讓用戶養眼。


    選個梅也平,男的沒幾個不討厭他的,基本盤流失的比他帶來的流量還多。


    選大蜜蜜多好,你這mix主打的就是大和黑科技。


    大蜜蜜大是沒問題的,臉上黑科技也不少,多符合品牌調性。


    果然,雷君也沒當回事:“mix沒什麽問題,現在合同應該還沒簽。但你說的這個熱葩是不是和note2的商務調性不匹配?”


    note2有個毛商務調性啊?現在商務用戶誰用你啊?


    這不是俏媚眼拋給瞎子看嗎。


    再說,梁超偉在男性顧客消費群裏也沒號召力啊,男的也沒覺得他多有商務調性。


    估計又是品牌部門的女粉絲搞的。


    真要想主打商務,還不如找幾個買了你手機的老板粉絲當代言。大米現在雖然沒有什麽商務調性,但用戶基數這麽大,找出來幾個高級職業經理人或私企老板粉絲還是很容易的。


    實在不行,還可以弄幾個你的大佬朋友當代言人呀。


    正在醞釀造車的uc前老板何曉彭、奶茶老公大強子、梵客老板陳念,再加上你自己,幾個大老板手持note2,露著側臉,打著背光,隨著燈光的移動,攝像機跟著轉,直到鏡頭焦點定在這些老板們裝逼的姿勢和手裏的note2上。


    畫外音是渾厚的男中音,“人生就是一次次的突破極限,小米note2,突破極限,成就自己!”


    然後再日常時不時的拍幾張老板們用note2的街拍或者生活照,買點熱搜。


    這不比請什麽梁超偉強?


    雷君隻是稍稍琢磨了一下:“這樣吧,紅米那邊定了三個代言人,吳修波、劉師師,還有一個小夥子,最近挺有名的,我把他們其中一個換下來,把你說的這個熱葩換上去。”


    方豫展顏一笑:“謝了雷總。”


    注1:學習的網頁元數據,而不是網頁內容,因此和前麵幾章裏麵提到的數據危機中的數據匱乏問題並不矛盾。


    簡單來說,用一本書打比方,就是在服務器裏儲存了書名,然後大模型學了目錄,最多再學個摘要。


    這個技術設想是我原創啊,查論文了,沒有相關論文。

章節目錄

閱讀記錄

我真的有一座法師塔所有內容均來自互聯網,uu小說網隻為原作者畫畫太歲的小說進行宣傳。歡迎各位書友支持畫畫太歲並收藏我真的有一座法師塔最新章節