所謂搜索引擎,就是根據(jù)用戶需求與一定算法,運(yùn)用特定策略從互聯(lián)網(wǎng)檢索出制定信息反饋給用戶的一門(mén)檢索技術(shù)。搜索引擎依托于多種技術(shù),如網(wǎng)絡(luò)爬蟲(chóng)技術(shù)、檢索排序技術(shù)、網(wǎng)頁(yè)處理技術(shù)、大數(shù)據(jù)處理技術(shù)、自然語(yǔ)言處理技術(shù)等,為信息檢索用戶提供快速、高相關(guān)性的信息服務(wù)。搜索引擎技術(shù)的核心模塊一般包括爬蟲(chóng)、索引、檢索和排序等,同時(shí)可添加其他一系列輔助模塊,以為用戶創(chuàng)造更好的網(wǎng)絡(luò)使用環(huán)境。
從發(fā)展歷史來(lái)看,搜索引擎技術(shù)自1994年以來(lái),已經(jīng)經(jīng)歷了三代的更新與發(fā)展,它們分別是:以Yahoo為代表的第一代搜索引擎技術(shù),它是基于萬(wàn)維網(wǎng)運(yùn)行并首次支持自然語(yǔ)言檢索和高級(jí)搜索語(yǔ)法檢索,以人工整理的目錄方式呈現(xiàn)檢索結(jié)果是其明顯特征;以Google為代表的第二代搜索引擎技術(shù),它是基于數(shù)據(jù)挖掘和網(wǎng)站評(píng)級(jí)技術(shù)并利用關(guān)鍵字進(jìn)行機(jī)器檢索,其檢索速度與準(zhǔn)確性迅速提高;以2005年微軟公司“技術(shù)驅(qū)動(dòng)型”搜索引擎構(gòu)想為代表的第三代搜索引擎技術(shù),是第二代搜索引擎技術(shù)的升級(jí)與改進(jìn),具有更為強(qiáng)大的服務(wù)空間與技術(shù)性能。
目前,世界上主流搜索引擎公司是谷歌、雅虎,尤其如谷歌,它提出“讓世界變得更美好”的口號(hào)令世界矚目。在我國(guó),百度一家獨(dú)大,它提出的口號(hào)是“連接人與服務(wù)”,意欲為國(guó)人提供最智能化、個(gè)性化的檢索服務(wù)。
搜索引擎的工作步驟與主要特點(diǎn)
搜索引擎利用其強(qiáng)大的爬蟲(chóng)技術(shù)和索引技術(shù),為計(jì)算機(jī)用戶提供優(yōu)質(zhì)的個(gè)性化信息服務(wù)。其工作步驟主要包括三個(gè)環(huán)節(jié):爬行和抓取(數(shù)據(jù)采集)、數(shù)據(jù)庫(kù)處理(數(shù)據(jù)預(yù)處理和數(shù)據(jù)處理)、排名(結(jié)果展示)。
其主要特點(diǎn)是:
1)信息抓取迅速。在大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)產(chǎn)生的信息浩如煙海,令人無(wú)所適從,難以得到自己需要的信息資源。在搜索引擎技術(shù)的幫助下,利用關(guān)鍵詞、高級(jí)語(yǔ)法等檢索方式就可以快速捕捉到相關(guān)度極高的匹配信息。
2)深入開(kāi)展信息挖掘。搜索引擎在捕獲用戶需求的信息的同時(shí),還能對(duì)檢索的信息加以一定維度的分析,以引導(dǎo)其對(duì)信息的使用與認(rèn)識(shí)。例如,用戶可以根據(jù)檢索到的信息條目判斷檢索對(duì)象的熱度,還可以根據(jù)檢索到的信息分布給出高相關(guān)性的同類對(duì)象,還可以利用檢索到的信息智能化給出用戶解決方案,等等。
3)檢索內(nèi)容的多樣化和廣泛性。隨著搜索引擎技術(shù)的日益成熟,當(dāng)代搜索引擎技術(shù)幾乎可以支持各種數(shù)據(jù)類型的檢索,例如自然語(yǔ)言、智能語(yǔ)言、機(jī)器語(yǔ)言等各種語(yǔ)言。目前,不僅視頻、音頻、圖像可以被檢索,而且人類面部特征、指紋、特定動(dòng)作等也可以被檢索到。可以想象,在未來(lái)幾乎一切數(shù)據(jù)類型都可能成為搜索引擎的檢索對(duì)象。
四種基本搜索方式的比較
搜索方式是搜索引擎的一個(gè)關(guān)鍵環(huán)節(jié),大致可分為四種:全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎,它們各有特點(diǎn)并適用于不同的搜索環(huán)境。所以,靈活選用搜索方式是提高搜索引擎性能的重要途徑。全文搜索引擎是利用爬蟲(chóng)程序抓取互聯(lián)網(wǎng)上所有相關(guān)文章予以索引的搜索方式;元搜索引擎是基于多個(gè)搜索引擎結(jié)果并對(duì)之整合處理的二次搜索方式;垂直搜索引擎是對(duì)某一特定行業(yè)內(nèi)數(shù)據(jù)進(jìn)行快速檢索的一種專業(yè)搜索方式;目錄搜索引擎是依賴人工收集處理數(shù)據(jù)并置于分類目錄鏈接下的搜索方式。
1)一般網(wǎng)絡(luò)用戶適用于全文搜索引擎。這種搜索方式方便、簡(jiǎn)捷,并容易獲得所有相關(guān)信息。但搜索到的信息過(guò)于龐雜,因此用戶需要逐一瀏覽并甄別出所需信息。尤其在用戶沒(méi)有明確檢索意圖情況下,這種搜索方式非常有效。
2)元搜索引擎適用于廣泛、準(zhǔn)確地收集信息。不同的全文搜索引擎由于其性能和信息反饋能力差異,導(dǎo)致其各有利弊。元搜索引擎的出現(xiàn)恰恰解決了這個(gè)問(wèn)題,有利于各基本搜索引擎間的優(yōu)勢(shì)互補(bǔ)。而且本搜索方式有利于對(duì)基本搜索方式進(jìn)行全局控制,引導(dǎo)全文搜索引擎的持續(xù)改善。
3)垂直搜索引擎適用于有明確搜索意圖情況下進(jìn)行檢索。例如,用戶購(gòu)買機(jī)票、火車票、汽車票時(shí),或想要瀏覽網(wǎng)絡(luò)視頻資源時(shí),都可以直接選用行業(yè)內(nèi)專用搜索引擎,以準(zhǔn)確、迅速獲得相關(guān)信息。
4)目錄搜索引擎是網(wǎng)站內(nèi)部常用的檢索方式。本搜索方式旨在對(duì)網(wǎng)站內(nèi)信息整合處理并分目錄呈現(xiàn)給用戶,但其缺點(diǎn)在于用戶需預(yù)先了解本網(wǎng)站的內(nèi)容,并熟悉其主要模塊構(gòu)成。總而觀之,目錄搜索方式的適應(yīng)范圍非常有限,且需要較高的人工成本來(lái)支持維護(hù)。
總之,用戶只有對(duì)上述四種搜索方式特點(diǎn)較為了解的基礎(chǔ)上,才能在不同情境下靈活選擇出最適合自己的搜索方式。
當(dāng)代搜索引擎技術(shù)發(fā)展趨勢(shì)分析
隨著智能化和信息化時(shí)代的到來(lái),網(wǎng)絡(luò)普及化程度空前提高。尤其我國(guó)政府提出了“互聯(lián)網(wǎng)+”的現(xiàn)代社會(huì)發(fā)展戰(zhàn)略,李克強(qiáng)總理的“提速降費(fèi)”政策的提出以及手機(jī)APP網(wǎng)絡(luò)終端的迅猛增長(zhǎng),搜索引擎已成為廣大網(wǎng)民不可或缺的網(wǎng)絡(luò)生存工具。在這種形勢(shì)下,搜索引擎技術(shù)出現(xiàn)了諸多發(fā)展勢(shì)頭并獲得史無(wú)前例的發(fā)展,引起了國(guó)內(nèi)外數(shù)以萬(wàn)計(jì)的信息技術(shù)行業(yè)工作者的高度關(guān)注。總而觀之,當(dāng)代搜索引擎技術(shù)的發(fā)展趨勢(shì)主要有以下四個(gè):
1)智能化發(fā)展。隨著人工智能技術(shù)的大幅度升溫,試著將其運(yùn)用于搜索引擎技術(shù),實(shí)現(xiàn)網(wǎng)絡(luò)搜索的智能化正成為當(dāng)代搜索引擎技術(shù)發(fā)展的新方向。目前,已經(jīng)出現(xiàn)了一系列智能化的搜索技術(shù),如以自然語(yǔ)言直接進(jìn)行數(shù)據(jù)搜索,基于云服務(wù)開(kāi)展的云搜索技術(shù),智能化判斷用戶搜索意圖并據(jù)此向用戶推送相關(guān)信息等等新技術(shù)已經(jīng)進(jìn)入我們的日常網(wǎng)絡(luò)生活。可以預(yù)見(jiàn),“人工智能+搜索引擎”必將引領(lǐng)AI時(shí)代的搜索引擎技術(shù)走向。
2)個(gè)性化發(fā)展。以前,搜索引擎只是為用戶提供機(jī)械化、單一的搜索方式,向用戶反饋大眾化的一般性信息資源。而如今,搜索引擎技術(shù)日益成熟,它不僅可以跟蹤用戶搜索痕跡和檢索歷史,把握每個(gè)用戶的信息偏好和搜索習(xí)慣,還可以根據(jù)每個(gè)用戶的特殊需求與偏好,為其提供個(gè)性化的搜索服務(wù),以提高搜索的準(zhǔn)確度,使其獲得更好的用戶體驗(yàn)。同時(shí),各搜索引擎公司還建立了特色的搜索體系,以滿足各行各業(yè)用戶的不同搜索需求。
3)一站化發(fā)展。由于網(wǎng)絡(luò)資源的多樣化,各式各樣的數(shù)據(jù)類型充斥著整個(gè)互聯(lián)網(wǎng),如文字、語(yǔ)言、語(yǔ)音、視頻、圖片、GIF圖片等,如何利用一次查詢來(lái)獲得各類相關(guān)數(shù)據(jù)資源,正成為搜索引擎技術(shù)發(fā)展的新方向。這就是一站式搜索。在這個(gè)方面,搜索引擎技術(shù)還面臨著許多關(guān)鍵技術(shù)有待于攻關(guān),如除文字外其他數(shù)據(jù)資源識(shí)別準(zhǔn)度不高,與搜索關(guān)鍵詞之間的匹配度問(wèn)題難以解決。因此,一站式搜索將成為以后搜索引擎技術(shù)研發(fā)的一大熱點(diǎn)。
4)移動(dòng)搜索迅猛發(fā)展。隨著手機(jī)終端用戶量的劇增,以手機(jī)用戶為代表的移動(dòng)搜索流量已經(jīng)大大超過(guò)了PC端用戶。數(shù)據(jù)表明:我國(guó)手機(jī)搜索用戶數(shù)已達(dá)5.93億,且使用率為81.9%,足以說(shuō)明移動(dòng)搜索已逐漸成為搜索引擎技術(shù)開(kāi)發(fā)的重點(diǎn)。目前,移動(dòng)搜索還處于初步發(fā)展階段,但它具有不容小覷的發(fā)展?jié)摿蜔o(wú)限的商機(jī),將占有更多的市場(chǎng)份額,必將主宰未來(lái)的搜索引擎市場(chǎng)。
總之,搜索引擎技術(shù)是網(wǎng)絡(luò)化生活的開(kāi)端,是幾億網(wǎng)民捕獲信息的窗口,也是網(wǎng)絡(luò)化時(shí)代不可或缺的關(guān)鍵技術(shù)。靈活選用搜索方式,把握搜索引擎的時(shí)代熱點(diǎn),是我們提高信息素養(yǎng)、迎接信息化挑戰(zhàn)的現(xiàn)實(shí)選擇!
>>> 查看《企業(yè)網(wǎng)站建設(shè)搜索引擎的特點(diǎn)與發(fā)展態(tài)勢(shì)》更多相關(guān)資訊 <<<
本文地址:http://www.modelkey.org/news/html/5803.html