<rt id="eeo40"><acronym id="eeo40"></acronym></rt>
  • <dd id="eeo40"><s id="eeo40"></s></dd>
  • <menu id="eeo40"><code id="eeo40"></code></menu>
  • 您的位置:首 頁 > 新聞中心 > 企業(yè)建網(wǎng)站 > 企業(yè)建網(wǎng)站藏文網(wǎng)頁倒排索引(上)

    企業(yè)建網(wǎng)站

    企業(yè)建網(wǎng)站藏文網(wǎng)頁倒排索引(上)

    發(fā)布:2020-10-21 14:08:22 瀏覽:2459

            藏文網(wǎng)頁倒排索引

            第一步:抽取網(wǎng)頁正文。網(wǎng)頁正文是相對網(wǎng)頁噪聲而言。當今的互聯(lián)網(wǎng)網(wǎng)頁上, 頁面的很多篇幅用在廣告、搜索推薦和其他鏈接上。網(wǎng)頁搜索工具關注的是網(wǎng)頁本身要表達的信息, 所以在通過爬蟲獲取到頁面源碼之后, 要去除那些與本文無關的噪聲, 抽取到網(wǎng)頁正文。

            第二步:分字。藏文文字區(qū)別于漢文, 漢文是一個字使用一個編碼, 而藏文是對組成字的基字編碼, 一個完整的藏文字可能存在多個編碼, 這些編碼按組成藏文字的方法順序排列。
            第三步:對全文以字建索引。以字建索引, 雖然檢索過程的匹配計算量會更大, 但考慮到目前藏文網(wǎng)頁總體數(shù)量不大, 應該是一種可行的提高查全率的辦法。根據(jù)上一步得到的字, 記錄每個字在文中出現(xiàn)的位置, 計算每個字出現(xiàn)的次數(shù), 建立鏈表。位置用于檢索時的準確定位, 次數(shù)用于計算字對文檔的重要性, 也用于相關性排序計算。

    >>> 查看《企業(yè)建網(wǎng)站藏文網(wǎng)頁倒排索引(上)》更多相關資訊 <<<

    本文地址:http://www.modelkey.org/news/html/21005.html

    趕快點擊我,讓我來幫您!
    亚洲高清无码中文成人在线,AV色综合久久天堂AV色综合在,久久人人爽人人爽人人片av高,日本亚洲成a人片在线观看
    <rt id="eeo40"><acronym id="eeo40"></acronym></rt>
  • <dd id="eeo40"><s id="eeo40"></s></dd>
  • <menu id="eeo40"><code id="eeo40"></code></menu>