<rt id="eeo40"><acronym id="eeo40"></acronym></rt>
  • <dd id="eeo40"><s id="eeo40"></s></dd>
  • <menu id="eeo40"><code id="eeo40"></code></menu>
  • 您的位置:首 頁 > 新聞中心 > > 企業(yè)做網(wǎng)站W(wǎng)eb頁面文本提取

    網(wǎng)站SEO優(yōu)化

    企業(yè)做網(wǎng)站W(wǎng)eb頁面文本提取

    發(fā)布:2021-01-29 14:56:59 瀏覽:2477

            Web頁面文本提取相對比較復(fù)雜, 這也正是本文研究的Web頁面自適應(yīng)轉(zhuǎn)換系統(tǒng)的關(guān)鍵技術(shù)之一。對國內(nèi)外的文獻(xiàn)進(jìn)行分析可以發(fā)現(xiàn), Web頁面的文本提取技術(shù)基本可以分為兩類:基于DOM的Web頁面文本提取技術(shù)和非基于DOM的Web頁面提取技術(shù)。通常很多研究者會采用基于DOM的Web頁面文本提取技術(shù), 其技術(shù)發(fā)展比較成熟。

            Web頁面的標(biāo)簽和標(biāo)簽之間、標(biāo)簽和內(nèi)容之間都存在著層次關(guān)系, DOM樹是描述Web頁面結(jié)構(gòu)的常用方法, DOM樹的葉子節(jié)點(diǎn)通常就是要提取的文本信息。因此, 通過一定的算法對Web頁面的DOM樹進(jìn)行遍歷, 進(jìn)行相應(yīng)的篩查降噪處理之后, 可以得到目標(biāo)的文本內(nèi)容。

            在實(shí)際的應(yīng)用過程中, 利用Web頁面解析工具進(jìn)行頁面解析, 并修正其中不規(guī)范的地方, 構(gòu)建Web頁面的DOM樹并進(jìn)行遞歸遍歷, 識別其中的非主要文本信息, 比如廣告、圖像等內(nèi)容, 將噪聲節(jié)點(diǎn)移除即得到文本信息。

    >>> 查看《企業(yè)做網(wǎng)站W(wǎng)eb頁面文本提取》更多相關(guān)資訊 <<<

    本文地址:http://www.modelkey.org/news/html/23505.html

    趕快點(diǎn)擊我,讓我來幫您!
    亚洲高清无码中文成人在线,AV色综合久久天堂AV色综合在,久久人人爽人人爽人人片av高,日本亚洲成a人片在线观看
    <rt id="eeo40"><acronym id="eeo40"></acronym></rt>
  • <dd id="eeo40"><s id="eeo40"></s></dd>
  • <menu id="eeo40"><code id="eeo40"></code></menu>