機(jī)器之心報(bào)道
(資料圖片)
機(jī)器之心編輯部
顛覆數(shù)字世界的基礎(chǔ),大模型的第一波應(yīng)用在這里?
最近一段時(shí)間,科技領(lǐng)域的新產(chǎn)品都講究個(gè)「大模型加持」,技術(shù)競(jìng)爭(zhēng)進(jìn)入了白熱化,不論谷歌、微軟還是 Meta 仿佛瞬間都回到了自己年輕時(shí)的樣子。
隨著技術(shù)的快速發(fā)展,越來越多的人開始討論大模型的應(yīng)用。在落地上,首當(dāng)其沖的就是谷歌一直有著主導(dǎo)地位的搜索。
在 ChatGPT 發(fā)布不久之后,占據(jù)先手優(yōu)勢(shì)的微軟放出的第一波大模型應(yīng)用產(chǎn)品正是搜索引擎。北京時(shí)間 2 月 8 日凌晨,微軟發(fā)布重大公告,爭(zhēng)分奪秒的宣布將大模型技術(shù)引入到自家的搜索引擎中。
這一次,數(shù)十年處于霸主地位的谷歌搜索,感受到了微軟新必應(yīng)帶來的「震感」,也讓我們看到了 AI 搜索引擎成為了大模型技術(shù)落地應(yīng)用的戰(zhàn)略要地。
近日,國(guó)內(nèi)公司昆侖萬維加入了「AI 搜索引擎」的這場(chǎng)逐鹿之戰(zhàn),宣布推出國(guó)內(nèi)第一款融入大語言模型的搜索引擎 —— 天工 AI 搜索,并開啟內(nèi)測(cè)申請(qǐng)且上線了 App。
內(nèi)測(cè)鏈接:
在這篇文章中,我們就來看下,天工 AI 搜索如何挑戰(zhàn)傳統(tǒng)搜索?實(shí)際用起來效果又如何。
為何始于搜索?
為何早早發(fā)布「天工」大語言模型的昆侖萬維,將大模型技術(shù)在 C 端的第一款產(chǎn)品落在搜索引擎場(chǎng)景?
最終原因,還是在于搜索的重要性與大模型技術(shù)帶來的革新潛力。
由于技術(shù)的快速迭代,很多科技公司提出了「基礎(chǔ)模型」,開發(fā)者根據(jù)自身的需求可以在其之上構(gòu)建商業(yè)應(yīng)用,不過基于它們實(shí)現(xiàn)的大規(guī)模工業(yè)轉(zhuǎn)型,效果還沒有顯現(xiàn)。
但在消費(fèi)級(jí)領(lǐng)域,生成式 AI 似乎擁有更加明顯的應(yīng)用前景。從今年 2 月開始,微軟、OpenAI、谷歌和百度等先行者的行動(dòng)看來,不約而同地把大模型的能力引入到自家的搜索引擎當(dāng)中,受到了人們的歡迎。
大模型時(shí)代來了,我們的生活會(huì)發(fā)生哪些改變?在看到過 ChatGPT 的震撼效果之后,我們都對(duì)此進(jìn)行過或是嚴(yán)肅或是夸張的想象,有一個(gè)共識(shí)是:它可能會(huì)在科技公司的產(chǎn)品上無處不在,越是需要與計(jì)算機(jī)互動(dòng)的工作,顛覆就會(huì)越強(qiáng)烈。
在與計(jì)算機(jī)互動(dòng)的過程中,搜索引擎是基礎(chǔ)且「無感」的應(yīng)用。長(zhǎng)期以來,搜索幾乎沒有出現(xiàn)過明顯的形態(tài)變化,人們也越來越傾向于選擇頭部幾家服務(wù)。
大模型問世后,傳統(tǒng)搜索可能會(huì)被顛覆,這個(gè)格局有機(jī)會(huì)被打破:通過結(jié)合質(zhì)變之后的 AI 技術(shù),過去以關(guān)鍵詞為起點(diǎn)的搜索動(dòng)作,已變成了發(fā)出指令「讓人工智能干活」,我們不再需要思考檢索的方式,或是在搜索結(jié)果中繁瑣地篩選可能有用的內(nèi)容或是入口,AI 會(huì)一站式地解決問題。
通過大模型特有的思維鏈(CoT)能力,新一代搜索系統(tǒng)可以充分理解人們提出的問題和找到的內(nèi)容,分析你的意圖,和你進(jìn)行持續(xù)有效的互動(dòng),生成有意義的內(nèi)容。
簡(jiǎn)單來說,AI 現(xiàn)在已經(jīng)有了點(diǎn)「邏輯」,它可以真正作為我們的個(gè)人助理,因?yàn)闈M足大量復(fù)雜的需求而成為流量入口,也可以作為初步的生產(chǎn)力工具解決工作上的問題。
基于大模型的搜索能力,我們可以期待在不遠(yuǎn)的未來,對(duì)于信息的需求會(huì)獲得極大滿足,讓 AI 整合資料能大幅提升知識(shí)獲取的效率,而 AI 生成則可以用以前無法想象的速度完成任務(wù)。
另一方面,一個(gè)可以充分理解人類意圖的 AI 也能連接各種服務(wù),讓行程制定、會(huì)議紀(jì)要不再需要時(shí)間,隨著不斷使用,它還會(huì)變得越來越聰明。
如果存在這樣的大模型應(yīng)用,它難道不就是我們心心念念的,可以幫我們與這個(gè)世界打交道的「超級(jí) APP」?
全量 AI 搜索體驗(yàn),而且更方便
既然已經(jīng)有產(chǎn)品上線,那么它的具體效果如何?
作為參加內(nèi)測(cè)的首批用戶,機(jī)器之心第一時(shí)間試了試天工 AI 搜索的成色。一番體驗(yàn)下來, 我們切實(shí)感受到了與傳統(tǒng)搜索引擎的不同之處。
這款 APP 名叫「天工 AI 助手」,新用戶下載就能體驗(yàn),如果是老用戶,也只需要更新 APP 就能體驗(yàn)。它的用戶界面設(shè)計(jì)很簡(jiǎn)單:在搜索框中點(diǎn)進(jìn)去,就可以問自己想要了解的任何問題了。另外,利用「AI 對(duì)話」功能,你還可以體驗(yàn)與天工 AI 助手聊天互動(dòng)、創(chuàng)作文本等常規(guī)大模型的能力。
我們知道,傳統(tǒng)搜索引擎主要是以關(guān)鍵詞為導(dǎo)向的,輸入文字后得到與關(guān)鍵詞匹配的海量結(jié)果,以關(guān)聯(lián)程度為順序排列(不考慮廣告的話)。但這種方式有時(shí)未必就能給你真正想要的答案,畢竟即使是論文也存在標(biāo)題黨,而如果搜索一長(zhǎng)段話,搜索引擎很少會(huì)考慮輸入內(nèi)容的邏輯。
天工 AI 搜索 主打的是自然語言搜索 ,就是用大白話進(jìn)行提問,不用遣詞造句,或是使用信息檢索課中提到的「操作符」,想怎么問就怎么問。天工 AI 搜索不僅能輕松分析并 Get 到你的真實(shí)意圖,還能捕捉到問題中的上下文關(guān)系,使搜索結(jié)果更精確、更相關(guān)。
它也大幅度改變了搜索引擎輸出結(jié)果的邏輯,簡(jiǎn)單給出一個(gè)問題就可以看到, 天工 AI 搜索的界面從上到下分成了三個(gè)部分來呈現(xiàn),分別為參考、回答和追問 。
這正是天工 AI 搜索與傳統(tǒng)搜索的不同之處:它首先會(huì)展示出參考信息源,并且這些信息源是對(duì)回答問題最具參考價(jià)值;然后基于 AI 大模型能力對(duì)參考內(nèi)容概括總結(jié),去除冗余和關(guān)聯(lián)不大的信息,更高效、準(zhǔn)確地生成簡(jiǎn)明扼要的回答。
作為 搜索結(jié)果(回答)中引用信息源的參考,是天工 AI 搜索的第一大亮點(diǎn) 。這些列出的參考保證了回答是可以追溯和值得信賴的,通過對(duì)應(yīng)的索引讓你直接鏈接到原始信息。參考信息源也很豐富,不僅有新聞網(wǎng)站、知識(shí)問答平臺(tái),還有機(jī)構(gòu)官網(wǎng)、視頻等。
來到最底部,則是 天工 AI 搜索的「追問」功能,體現(xiàn)了搜索引擎大模型的一面,它可以讓你圍繞一個(gè)問題展開 20+ 輪次的深度交互 。
搜索引擎的特點(diǎn)在于能針對(duì)你的需求輸出即時(shí)準(zhǔn)確的信息,而大模型的強(qiáng)項(xiàng)是打破了人機(jī)之間的壁壘,可以和你有效進(jìn)行對(duì)話,充分理解上下文內(nèi)容,并給出準(zhǔn)確的回應(yīng)。
接下來我想了解一下谷歌在 2017 年發(fā)表的那篇影響了自然語言處理(NLP)發(fā)展方向的大作。天工 AI 搜索給到了這篇論文的題目、架構(gòu)原理以及產(chǎn)生的影響,簡(jiǎn)直像是對(duì)論文做了一個(gè)摘要總結(jié)。
我們繼續(xù)追問,在 NLP 領(lǐng)域里曝光率極高的 Transformer 早已經(jīng)擴(kuò)展到了計(jì)算機(jī)視覺領(lǐng)域。谷歌在視覺 Transformer 領(lǐng)域的工作 Vision Transformer 有哪些厲害的地方呢?天工 AI 搜索讓我們了解到 ViT 相較于傳統(tǒng)卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)、更出色的建模能力和更強(qiáng)的可解釋性,以及為計(jì)算機(jī)視覺領(lǐng)域帶來的積極影響。
當(dāng)初寫 Transformer 論文的幾位作者,現(xiàn)在已經(jīng)都算是大神了吧,他們都怎么樣了?那就接著往下問。
由此可見,天工 AI 搜索的無限追問賦予了你我「打破砂鍋問到底」的能力,一件事情的來龍去脈都可以在它那里找到答案。
除了通過追問讓你化身「萬事通」之外,天工 AI 搜索在大模型的加持下具備強(qiáng)大的信息整合、提煉和串聯(lián)能力,從而在應(yīng)對(duì)開放式問題時(shí)更加游刃有余、答之有物。
這次我來問一個(gè)目前大模型領(lǐng)域沒有定論的熱點(diǎn)話題,開源還是閉源?看看天工 AI 搜索會(huì)給我們什么答案。它的回答首先點(diǎn)明不能一概而論,然后詳細(xì)羅列了開源和閉源的優(yōu)勢(shì),最后建議企業(yè)和研究機(jī)構(gòu)根據(jù)自身情況選擇開源或閉源,可以說非常全面了
大模型的搜索引擎不僅能接得住追問,而且還能拿捏很多細(xì)節(jié)。天工 AI 搜索在知識(shí)類、創(chuàng)意類搜索方面更是強(qiáng)于傳統(tǒng)搜索。
比如給出下面一個(gè)編程題目,它會(huì)先進(jìn)行解釋,再輸出代碼實(shí)現(xiàn)。當(dāng)然解法的來源鏈接也都列好了。
另外你也可以基于這個(gè)結(jié)果進(jìn)行追問,一步步了解這個(gè)代碼的原理。
再來一個(gè)創(chuàng)意類的問題,比如我想利用生成式工具 Stable Diffusion 和 Runway 創(chuàng)作一部科幻大片,但不知道怎么做。天工 AI 搜索給出了非常詳細(xì)的準(zhǔn)備步驟,可見要比自己總結(jié)快得多。
接著追問,我想寫一個(gè)以海洋遭到核污染導(dǎo)致人類滅亡為主題的故事,但不知道如何創(chuàng)作劇本。同樣交給天工 AI 搜索,回答依然條理清晰、邏輯性強(qiáng)。
實(shí)時(shí)性是搜索引擎的重要要求,天工 AI 搜索在這方面做出尤為出色,它用整個(gè)網(wǎng)絡(luò)作為資料庫(kù)保證了輸出的實(shí)時(shí)性。
比如我想了解一下 Meta 上周五發(fā)布的代碼大模型 Code Llama,以及在它的基礎(chǔ)上超越 GPT-4 的大模型。從天工 AI 搜索那里,我們知道這個(gè)超越 GPT-4 的大模型是 WizardCoder 34B 以及它的一次生成通過率。
最后,天工 AI 搜索非常友好的一點(diǎn)是 每輪次的搜索結(jié)果都不會(huì)丟失 ,保存在「我的歷史」中,以便你隨時(shí)回看搜索內(nèi)容。并且,所有客戶端都是統(tǒng)一的。
天工大模型和 AI 增強(qiáng)技術(shù)
看起來挺好用的天工 AI 搜索,背后應(yīng)用了哪些技術(shù)?它的最重要依托是昆侖萬維此前推出的千億級(jí)大語言模型「天工」。
作為國(guó)內(nèi)首個(gè)對(duì)標(biāo) ChatGPT 的雙千億級(jí)大語言模型,「天工」部署在國(guó)內(nèi)領(lǐng)先的 GPU 集群上,整合了千億級(jí)預(yù)訓(xùn)練基座模型與千億 RLHF 模型。因此,模型擁有了強(qiáng)大的自然語言處理和智能交互能力,在豐富的知識(shí)儲(chǔ)備加持下,可以滿足知識(shí)問答、文案創(chuàng)作、邏輯推理、數(shù)理推算、代碼編程等多樣化生成式 AI 需求。
昆侖萬維表示,利用大模型能力,新一代搜索引擎正在變得更加聰明。另一方面,基于搜索的實(shí)時(shí)內(nèi)容,大模型在內(nèi)容生成時(shí)幻覺等現(xiàn)象出現(xiàn)的概率也被降低。在天工 AI 搜索的背后,昆侖萬維在多個(gè)角度進(jìn)行著重改進(jìn),革新了傳統(tǒng)搜索引擎的體驗(yàn)。
具體而言,提升主要體現(xiàn)在五個(gè)方面:
意圖識(shí)別和理解 :傳統(tǒng)搜索引擎中,用戶經(jīng)常需要多次嘗試搜索語句。天工 AI 搜索在檢索前會(huì)使用大模型對(duì)用戶問題做 Query 改寫,不僅可以深入地挖掘用戶真實(shí)意圖,還能準(zhǔn)確捕捉到查詢中的上下文關(guān)系,帶來更加精確和相關(guān)的搜索結(jié)果。
智能摘要 :在開放式問題上,通過「Dense Passage Retrieval」(DPR)技術(shù),利用雙編碼器模型對(duì)問題和潛在相關(guān)文檔(例如維基頁(yè)面或論壇文章)進(jìn)行編碼、計(jì)算相似度,確保準(zhǔn)確檢索到高相關(guān)性文檔及關(guān)鍵段落。
向量語義檢索 :昆侖萬維為搜索引擎構(gòu)建了一套大規(guī)模實(shí)時(shí)向量檢索系統(tǒng),并在搜索的多個(gè)環(huán)節(jié)發(fā)揮作用,包括精準(zhǔn)內(nèi)容定位、增強(qiáng)內(nèi)容多樣性、提升上下文連貫性等。通過召回用戶之前查詢的搜索結(jié)果,提高搜索結(jié)果與用戶交互的連貫性,打造了一種更自然、流暢的搜索對(duì)話體驗(yàn)。
智能追問技術(shù) ,它為天工 AI 搜索的無限追問提供了支持。昆侖萬維表示,該技術(shù)的核心是充分理解用戶的查詢,并在需要更多信息時(shí)提出追問。追問的實(shí)現(xiàn)不僅離不開「意圖識(shí)別、信息完備性檢測(cè)、問題生成、用戶反饋接收、動(dòng)態(tài)調(diào)整與學(xué)習(xí)、上下文感知」等步驟,還需要對(duì)話、用戶查詢?nèi)罩?、追問反饋等大量?shù)據(jù)持續(xù)訓(xùn)練。當(dāng)然也需要不斷迭代和優(yōu)化,通過準(zhǔn)確把握用戶多遍需求,使回答始終不偏題。
此外,天工 AI 搜索也實(shí)現(xiàn)了 跨語言的檢索 (Cross-LanguageInformation Retrieval,CLIR),即使你提問時(shí)使用的是中文,AI 生成內(nèi)容時(shí)尋找的信息也并不僅是中文,但呈現(xiàn)結(jié)果時(shí)全部都已翻譯并整合好了。這種方式不僅大大擴(kuò)展了搜索的知識(shí)邊界,也確保用戶能夠接觸到最新、最全面的全球資訊和研究成果。
更重要的一點(diǎn)是,天工 AI 搜索會(huì)自動(dòng)過濾收費(fèi)網(wǎng)頁(yè)和無效信息,也沒有廣告,排在前面的都是有效參考鏈接。
在這些能力的加持下,AI 搜索既能看懂你的長(zhǎng)難句,也能從全球的網(wǎng)絡(luò)中搜羅信息,整理出邏輯清晰的答案,如果獲得了你的反饋還能不斷改進(jìn)。一個(gè)能夠解決所有問題的萬能 AI 已經(jīng)初具雛形。
或許,超級(jí)應(yīng)用的開始就是這個(gè)樣子。
內(nèi)測(cè)申請(qǐng):/
關(guān)鍵詞: