您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網(wǎng)>電子百科>半導(dǎo)體技術(shù)>基礎(chǔ)知識>

網(wǎng)絡(luò)搜索引擎,網(wǎng)絡(luò)搜索引擎的工作原理

2010年03月26日 15:51 wenjunhu.com 作者:佚名 用戶評論(0

網(wǎng)絡(luò)索引擎,網(wǎng)絡(luò)搜索引擎的工作原理

21 世紀是信息時代,隨著信息科學(xué)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)已成為人們生活中的重要組成部分,網(wǎng)上信息呈幾何級數(shù)增長,面對眾多繁雜無序的信息,如何能快速、準確、經(jīng)濟地查找到所需要的信息,成為人們迫切需要解決的問題。

搜索引擎概述
搜索引擎是為滿足人們對網(wǎng)絡(luò)信息的搜索需求而新興的一種網(wǎng)絡(luò)工具,它利用網(wǎng)絡(luò)自動搜索功能,對各種信息資源分門別類地進行標(biāo)引、建庫,并對信息進行理解、提取、組織和處理,從而起到信息導(dǎo)航的作用,幫助人們從不同形式的數(shù)字化信息中進行搜索。

搜索引擎起源于傳統(tǒng)的信息全文檢索理論。狹義上的搜索引擎僅指基于因特網(wǎng)的搜索引擎;廣義上的搜索引擎除此之外還包括基于目錄的信息檢索服務(wù)。搜索引擎的研究極具綜合性和挑戰(zhàn)性,它涉及到信息檢索、人工智能、計算機網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的關(guān)鍵理論和技術(shù),其核心問題是數(shù)據(jù)庫的規(guī)模、索引數(shù)據(jù)庫的質(zhì)量和標(biāo)引質(zhì)量。


搜索引擎的工作原理及分類
搜索引擎由搜索器、索引器、檢索器和用戶接口四部分。它利用一個名為“蜘蛛”的機器人程序以一定的策略自動進行信息搜索,然后由索引器對信息進行理解、處理,從中抽取索引項,建立索引庫,再由檢索器根據(jù)用戶的查詢在索引庫中快速檢索文檔,進行相關(guān)度評價,將要輸出的結(jié)果排序,并按用戶的查詢需求合理反饋信息,由用戶接口來接納用戶查詢,顯示查詢結(jié)果,提供個性化查詢項。按照信息搜集的方法和服務(wù)提供方式的不同,搜索引擎可以分為:

1. 全文搜索引擎

全文搜索引擎是從各個網(wǎng)站提取信息,建立數(shù)據(jù)庫,檢索與用戶查詢條件相匹配的記錄后,按照一定的排列順序返回結(jié)果,是名副其實的搜索引擎。全文搜索引擎的自動信息搜集功能分2 種:一種是定期搜索,即每隔一段時間,搜索引擎主動派出“蜘蛛”程序,對一定IP 地址范圍的互聯(lián)網(wǎng)站進行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫;另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址,它在一定時間內(nèi)(2 天到數(shù)月不等) 定向向你的網(wǎng)站派出“蜘蛛”程序。全文搜索引擎中最具代表性的有國外著名的Google 及國內(nèi)的百度搜索。

2. 目錄索引

目錄索引是一種人工方式或半自動方式的搜索引擎,由編輯人員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。由于目錄索引只是一個按目錄分類的網(wǎng)站鏈接列表,因此不能稱為嚴格意義上的搜索引擎。由于目錄索引中加入了人的智能,所以導(dǎo)航質(zhì)量高,信息更準確,但也正因為如此,使得維護費用偏大,信息更新不及時。目錄索引中最具代表性的為yahoo 、新浪。

3. 元搜索引擎

元搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結(jié)果處理后,作為自己的結(jié)果返回給用戶。元搜索引擎返回結(jié)果的信息量更大、更全,但是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。元搜索引擎的代表是WebCrawler、info market 等。


搜索引擎的發(fā)展現(xiàn)狀及技術(shù)展望
目前,搜索引擎一般提供的是關(guān)鍵詞的全文檢索和分類瀏覽的查詢方式,檢索方式單一。分類目錄瀏覽常常檢索到很多無關(guān)的信息,查全率、查準率不高;關(guān)鍵詞檢索僅僅是機械的詞語匹配,缺乏知識處理能力和理解能力,信息檢索質(zhì)量不高。此外,數(shù)據(jù)庫檢索功能和應(yīng)用上的局限性、排序技術(shù)指標(biāo)單一、分類目標(biāo)體系缺乏規(guī)范、信息加工深度不夠,這些都嚴重影響著搜索引擎的發(fā)展。因此,必須增加檢索途徑,加強網(wǎng)絡(luò)信息資源的科學(xué)標(biāo)引和組織,推動網(wǎng)絡(luò)資源標(biāo)準化進程,積極推進搜索引擎的發(fā)展。

1. 精確搜索技術(shù)

采用基于自然語言理解技術(shù)的智能化搜索引擎,加深理解用戶搜索請求; 通過對用戶的不斷了解、分析,提供個性化搜索;利用XML 等技術(shù)使信息結(jié)構(gòu)化,查詢結(jié)構(gòu)化,提高檢索的速度和性能;針對某一行業(yè),某一主題和某一地區(qū)的信息而建立專業(yè)化搜索,提高搜索的準確度。

2. 對等搜索技術(shù)

對等搜索P2P(Peer To Peer) 技術(shù)是以用戶為中心,通過P2P 共享硬盤上的文件、目錄甚至整個硬盤,將這一理念具體運用到搜索引擎技術(shù)上,使用戶無須通過Web 服務(wù)器,不受信息文檔格式和宿主設(shè)備的限制,進行深度搜索,網(wǎng)上信息的價值得到極大的提升。

3. 交叉語言檢索技術(shù)

交叉語言信息檢索是指用戶用母語提交查詢,搜索引擎在多種語言的數(shù)據(jù)庫中進行信息檢索,返回能夠回答用戶問題的所有語言的文檔。如果再加上機器翻譯,返回結(jié)果可以用母語顯示。該技術(shù)目前還處于初步研究階段,主要的困難在于語言之間在表達方式和語義對應(yīng)上的不確定性。但對于經(jīng)濟全球化、互聯(lián)網(wǎng)跨越國界的今天,無疑具有很重要的意義。

4. 移動代理技術(shù)

移動代理(Mobile Agent) 技術(shù)是一種新型分布式計算技術(shù),是指網(wǎng)絡(luò)上具有移動功能的、能夠自主運行的,按照用戶的要求完成指定任務(wù)的程序。在移動代理模式下,客戶機向服務(wù)器提交的不再是一些簡單的請求,而是包含代碼和數(shù)據(jù)的移動對象,移動對象代表用戶,按照“程序靠近數(shù)據(jù)”的原則,在服務(wù)器間自主的移動,完成數(shù)據(jù)處理的任務(wù)?;谝苿哟淼哪J街系膽?yīng)用程序可以大大節(jié)省網(wǎng)絡(luò)寬帶,有效克服網(wǎng)絡(luò)延時帶來的種種問題,可以智能化地自主異步執(zhí)行,它克服了搜索引擎?zhèn)鹘y(tǒng)的“數(shù)據(jù)靠近程序”的運行模式,大大降低了網(wǎng)絡(luò)的數(shù)據(jù)流量,節(jié)省了網(wǎng)絡(luò)資源。


發(fā)展前景
隨著信息化社會的推進,搜索已成為網(wǎng)絡(luò)生活中組織和控制網(wǎng)絡(luò)信息資源的有效工具,利用搜索引擎加速信息流通及整和有用知識,提高信息利用率,已成為廣大用戶的共識。我們應(yīng)更好的利用搜索引擎,實現(xiàn)信息服務(wù)的人性化、高效化,為用戶檢索信息提供更大的便利。

非常好我支持^.^

(208) 99.5%

不好我反對

(1) 0.5%

( 發(fā)表人:admin )

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關(guān)規(guī)定!

      ?