<rt id="eeo40"><acronym id="eeo40"></acronym></rt>
  • <dd id="eeo40"><s id="eeo40"></s></dd>
  • <menu id="eeo40"><code id="eeo40"></code></menu>
  • 您的位置:首 頁(yè) > 新聞中心 > 手機(jī)網(wǎng)站建設(shè) > 手機(jī)網(wǎng)站建設(shè)網(wǎng)頁(yè)正文內(nèi)容抽取方法

    手機(jī)網(wǎng)站建設(shè)

    手機(jī)網(wǎng)站建設(shè)網(wǎng)頁(yè)正文內(nèi)容抽取方法

    發(fā)布:2021-01-29 15:33:35 瀏覽:3210

            網(wǎng)頁(yè)正文內(nèi)容抽取方法, 該算法思路是先需要對(duì)Web頁(yè)面進(jìn)行分塊處理, 處理結(jié)果同樣利用DOM樹(shù)原理進(jìn)行解析, 然后集合閾值計(jì)算和正則表達(dá)式, 對(duì)于處理網(wǎng)頁(yè)正文準(zhǔn)確率較高。

            非基于DOM的Web頁(yè)面提取技術(shù)比較著名就是微軟亞洲研究院提出的VIPS基于視覺(jué)的網(wǎng)頁(yè)分塊算法。該算法從用戶的視覺(jué)感官體驗(yàn)出發(fā), 根據(jù)Web頁(yè)面的背景色、前景色、元素之間的間距來(lái)對(duì)Web頁(yè)面進(jìn)行視覺(jué)劃分, 建立相應(yīng)的分割條和網(wǎng)頁(yè)分塊集, 基于此基礎(chǔ)再進(jìn)行文本信息的抽取, 算法規(guī)則十分復(fù)雜。目前很多Web頁(yè)面的視覺(jué)特點(diǎn)也很復(fù)雜, VIPS算法針對(duì)此類頁(yè)面時(shí)準(zhǔn)確率和效率較差。因此, 高樂(lè)等人提出一種改進(jìn)的VIPS算法, 算法針對(duì)<table>標(biāo)簽的處理進(jìn)行優(yōu)化處理, 并通過(guò)實(shí)驗(yàn)證明了改進(jìn)算法正確率得到了提升。

            此外, 還有一些不基于DOM樹(shù)對(duì)網(wǎng)頁(yè)文本提取的方法, 例如《基于權(quán)值優(yōu)化的網(wǎng)頁(yè)正文內(nèi)容提取算法》的通過(guò)統(tǒng)計(jì)分析Web頁(yè)面正文內(nèi)容特點(diǎn), 得到頁(yè)面中各個(gè)文本內(nèi)容塊屬性特征, 并使用粒子群優(yōu)化算法對(duì)特征權(quán)值及閾值進(jìn)行了確定及優(yōu)化。

    >>> 查看《手機(jī)網(wǎng)站建設(shè)網(wǎng)頁(yè)正文內(nèi)容抽取方法》更多相關(guān)資訊 <<<

    本文地址:http://www.modelkey.org/news/html/23506.html

    趕快點(diǎn)擊我,讓我來(lái)幫您!
    亚洲高清无码中文成人在线,AV色综合久久天堂AV色综合在,久久人人爽人人爽人人片av高,日本亚洲成a人片在线观看
    <rt id="eeo40"><acronym id="eeo40"></acronym></rt>
  • <dd id="eeo40"><s id="eeo40"></s></dd>
  • <menu id="eeo40"><code id="eeo40"></code></menu>