" />
水淼·萬能文章采集器(SMGod)是一款基于高精度正文識(shí)別算法的互聯(lián)網(wǎng)文章采集器。支持按關(guān)鍵詞采集百度等搜索引擎的新聞源(news.baidu.com)和泛網(wǎng)頁(www.baidu.com),支持采集指定網(wǎng)站欄目下的全部文章。
此算法由水淼自主研發(fā),可以在一個(gè)網(wǎng)頁里提取出正文部分,通常精度可以達(dá)到95%,如果再進(jìn)一步設(shè)置最少字?jǐn)?shù),采集的文章的精度(正確性)可以達(dá)到99%。同時(shí)>
文章標(biāo)題也實(shí)現(xiàn)99%的提取精度。當(dāng)然,一些網(wǎng)頁排版格式比較混亂、不規(guī)則時(shí),該精度可能有所下降。
正文提取算法有3種模式,標(biāo)準(zhǔn)、嚴(yán)格、精確標(biāo)簽。大多數(shù)情況,標(biāo)準(zhǔn)和嚴(yán)格模式是相同的提取結(jié)果。下面說的是特殊情況:
標(biāo)準(zhǔn)模式:即一般性提取,大多數(shù)時(shí)候能夠精確提取正文,但一些特殊頁面會(huì)導(dǎo)致提取到一些不需要內(nèi)容(但本模式能夠較好識(shí)別類似百度經(jīng)驗(yàn)的文章頁面)
嚴(yán)格模式:顧名思義,比標(biāo)準(zhǔn)模式嚴(yán)格一點(diǎn),可以很大程度避免不相關(guān)內(nèi)容提取為正文,但對(duì)于特殊分段頁面如百度經(jīng)驗(yàn)的頁面(不是一般<p></p><br>段落,而是有格式的多個(gè)獨(dú)立div段),一般只能提取到某一段,而標(biāo)準(zhǔn)模式則可以提取全部段。
精確標(biāo)簽:當(dāng)標(biāo)準(zhǔn)和嚴(yán)格模式不管用時(shí),可以精確指定目標(biāo)正文的標(biāo)簽頭。本模式只適合網(wǎng)絡(luò)批處理。
所以可以根據(jù)實(shí)際情況來切換模式?梢允褂帽镜嘏幚淼淖x網(wǎng)頁正文功能來測(cè)試指定網(wǎng)頁適合哪種模式提取。
應(yīng)用平臺(tái):WinXP, Win7, Win8, Win10, WinAll