新聞中心

EEPW首頁 > 新聞縱覽 > [AiPie]AI對接CMS發(fā)文的采集標(biāo)題(清洗數(shù)據(jù))方法

[AiPie]AI對接CMS發(fā)文的采集標(biāo)題(清洗數(shù)據(jù))方法

作者: 時(shí)間:2024-08-21 來源: 收藏


本文引用地址:http://www.butianyuan.cn/article/202408/462237.htm

01.前提概要

之前一直都是在做SEO的有關(guān)工作,所以呢也積累了一些經(jīng)驗(yàn),這次開發(fā)AiPie(一款利用AI生成文章內(nèi)容并發(fā)布到CMS的工具 官網(wǎng)直接百度 AIPIE )也非常榮幸的為百來個(gè)客戶提供技術(shù)和服務(wù),看著大家天天在群里說的一些收錄慢,沒有方向等問題,這里就和大家分享一下,我自己的 SEO優(yōu)化心得,我們從淺到深,盡可能的用大白話的形式,將這個(gè)清洗數(shù)據(jù)的方法告訴大家,希望對大家的后續(xù)發(fā)文工作提供一些方向,我的個(gè)人理念更多的是喜歡和大家一起進(jìn)步和成長,我也是一名站長,能夠感同身受一些問題,在您購買AiPie的同時(shí),我更希望能夠把一些技巧給到大家,讓大家更明白工具的意義和正確使用的方向。大家都知道,采集在AI出來之前一直是網(wǎng)站發(fā)文保持活性的首選方案,但是也滋生了很多問題,常見的有以下的問題:

●   百度把你K了,原因是文章過于相似,你可能是采集站

●   使勁造文章,反而權(quán)重收錄不動(dòng)聲色,原因是爬蟲直接忽略了,干的活兒跟你毛關(guān)系沒有

            ●   作者把你告了,原因是人家文章有版權(quán)

當(dāng)然還有很多類似的案例,就不舉例說明了,做SEO的人都知道,排名好的基礎(chǔ)就是詞非常重要,那么詞又是什么呢?在TDK中,可以是K(keywords),也就是關(guān)鍵詞,但是這個(gè)索引只能定義你的站點(diǎn)屬性,并不能讓你脫穎而出,人家在搜索中找到你,要想做“出頭鳥”,其實(shí)你更應(yīng)該在意你的文章標(biāo)題,大部分站的詞量,收錄和權(quán)重都是和文章標(biāo)題息息相關(guān)的,這里有興趣可以去延伸下百度的算法,這里就不展開說了,百度和其他搜索引擎說的天花亂墜,其實(shí)多半是從你的頁面的title入手的,也就是文章的關(guān)鍵詞,相信大家現(xiàn)在見到的CMS大部分都會(huì)在發(fā)文章的地方單獨(dú)出了一個(gè)關(guān)鍵詞和描述的板塊,可以針對單文章做優(yōu)化SEO的工作,可見它的重要性,因此把我標(biāo)題質(zhì)量是非常關(guān)鍵的!

02.獲得標(biāo)題

如果大家閱讀過AiPie的其他說明文檔,相信你也知道有哪些渠道可以來制作標(biāo)題,這里就介紹幾種比較常見的,也會(huì)給大家說推薦的,常用的獲取方案:

●   通過AI生成,特點(diǎn)是非常綜合全面,缺點(diǎn)是涵蓋不全,標(biāo)題太過于客觀

●   通過采集人家的標(biāo)題,特點(diǎn)是速度快,得來全不費(fèi)功夫,缺點(diǎn)是可能暗藏比較有標(biāo)志性的標(biāo)題和時(shí)效性標(biāo)題

●   通過5118等工具抓長尾詞或者百度下拉詞制作標(biāo)題,優(yōu)點(diǎn)是關(guān)鍵詞命中率高,缺點(diǎn)是一般人組合效果不理想和生成效果可能牛頭不對馬嘴,反而可能達(dá)不到理想目標(biāo)

●   通過混合標(biāo)題,比如雙標(biāo)題等增加關(guān)鍵詞的接觸面,優(yōu)點(diǎn)是關(guān)鍵詞命中率高,缺點(diǎn)是百度已經(jīng)明顯打擊該類作弊手法了

●   等等其他方法

這里面我們最推崇的是通過AI生成標(biāo)題作為輔助,主要還是采集別人的標(biāo)題為主,前提是做好數(shù)據(jù)清洗,因?yàn)樵谏鲜龅姆绞街校挥胁杉瘶?biāo)題看來能夠比較中和

03.如何高效采集標(biāo)題

這里其實(shí)采集方法非常多,什么火車頭,藍(lán)天采集器或者付費(fèi)插件之類的,非常多,但是都是標(biāo)題文章全部一把抓的情況,我們這里使用AiPie輔助AI生成文案的話,就只需要標(biāo)題即可,因此我這里推薦八爪魚采集器,你能夠非常靈活的配置,可視化抓取標(biāo)題,同時(shí)上手難度低,非常友好,免費(fèi)版也夠用。

說到高效,講究效率的事情的話,我們還是不得不說一些大型的站點(diǎn),比如我的網(wǎng)站 是科技類屬性的,大部分應(yīng)該包含的是科技屬性的文章,標(biāo)題也就隨即為開發(fā)語言,編程類和科技新聞?lì)悞煦^,要說這一類其實(shí)也是非常好做的,大型網(wǎng)站非常之多,比如什么CSDN啊,或者博客園,PHP中文網(wǎng),腳本之家啊都可以,甚至很多小博客也是分享技術(shù)類的文章居多,那么這就是我們的采集方向了,資源確定好了,就可以動(dòng)手了。

04.清洗規(guī)則,做個(gè)優(yōu)雅的“小偷”

說是互聯(lián)網(wǎng)小偷,確實(shí)自嘲,不夠也不為過,能夠?yàn)槲宜?,其?shí)就是合理利用資源,也是一種能力的體現(xiàn),所以做事情優(yōu)雅起來,態(tài)度就要端正,心急吃不了熱豆腐,做站做SEO同樣是這個(gè)道理,你想要擠進(jìn)前面的賽道,你要是沒有啥過人的技巧就好好聽我講后面的,如何禪定的做標(biāo)題清洗,一定程度上對你的SEO提升非常之重要。

其實(shí)我在群里也日常會(huì)分享一些心得,因?yàn)榕聛G失,所以才又煞費(fèi)苦心為大家整理成冊,寫到這里,也是激勵(lì)大家,做個(gè)優(yōu)雅的互聯(lián)網(wǎng)“小偷”,偷的是標(biāo)題,洗的也就是標(biāo)題。

做好清洗首先要給大家講明白幾個(gè)概念問題:

●   首先AiPie目前支持的OpenAI的GPT3/3.5訓(xùn)練數(shù)據(jù)都比較老舊,雖說目前也是AI界頂尖,但是他對2023年的事情可謂一概不知,所以具有時(shí)效性的標(biāo)題不要,比如說什么"2023年6月7日北京天氣預(yù)報(bào)",這種生成的比說多離譜,至少AI是在胡編亂造,更不要去寫什么時(shí)政,敏感新聞,突發(fā)事件作為標(biāo)題去吸引流量,還是勸各位不要把自己害了,這種擦邊,現(xiàn)在讓你過,你也活不久。

●   其次對于具有特殊性的標(biāo)題,比如“2022年fiime站點(diǎn)運(yùn)行日志記錄”或者是“我的java學(xué)習(xí)筆記(一)”之類的,這種標(biāo)題只針對特定站點(diǎn)有效或者是標(biāo)題含糊不利于生成文章的,建議丟棄,由于AiPie目前還受到token的長度限制,因此一定要注意這種標(biāo)題,過于宏觀,也說不全面的標(biāo)題,文章不會(huì)好到哪里去。如果你不在意文章質(zhì)量當(dāng)我沒說。

●   最后說一種標(biāo)題過長的,比如說:“python抓取網(wǎng)站提示錯(cuò)誤ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: self signed certificate in certificate chain (_ssl.c:1056)”這個(gè)問題確實(shí)看起來非常具體,但是實(shí)際AI生成的文章中,他不一定知道這個(gè)問題,或者生成內(nèi)容根本不相關(guān),這就需要搜索引擎的概念了,雖然說關(guān)鍵詞越多,搜索到的內(nèi)容越具體,但是對于我們來說不是這樣的,標(biāo)題越長,第一個(gè)顯示不美觀,第二個(gè)范圍過于具體,被匹配的概率降低,這種情況建議對標(biāo)題做精簡或者做換行,轉(zhuǎn)換成兩個(gè)標(biāo)題來使用

●   關(guān)鍵字詞的清洗規(guī)范,這里給大家整理了一些常見的字詞陷阱,不要拔下來就一股腦發(fā) ,有的玩意兒不適合做標(biāo)題 或者根本效果不太好,一般常見的清洗范圍如下:

原創(chuàng) 轉(zhuǎn)載 轉(zhuǎn)發(fā) 轉(zhuǎn) 筆記 翻譯 周報(bào) 年報(bào) 日志 月報(bào) 新聞詞 站點(diǎn)詞 時(shí)效詞 政治詞 頭條詞(非必要不采集) 特殊字符 括號詞 章節(jié)詞 還有一些常見口水話 擦邊詞等

舉個(gè)例子,可以看下,反正根據(jù)實(shí)際情況一定要做好清洗

05.為什么要清洗這些詞

我特意把為什么寫到最后面,也是給大家留一個(gè)思考空間,上述整理了一些典型,包括什么“轉(zhuǎn)載”“譯文”等字眼對于蜘蛛來說你這就此地?zé)o銀三百兩,告訴他我不是原創(chuàng)的,我是轉(zhuǎn)載的,你看著辦吧!不要不重視這些細(xì)節(jié),細(xì)節(jié)決定人家就排在你前面。

第二個(gè)文章標(biāo)題的質(zhì)量決定AI文章的質(zhì)量,標(biāo)題的具體和完整,決定返回文章的精致與嚴(yán)謹(jǐn),AI的一切智能并不是AI才是主人,而是我們要學(xué)會(huì)利用AI來做SEO,主導(dǎo)地位從來也沒有變過,所以大家一定不要過于依賴,還是需要有個(gè)人思考能力。踢掉那些非關(guān)鍵,過于口水的,毫無意義的,可能虛假的,擦邊不安全的,具有不確性的東西噶了,留下的才是精華,這才是提升網(wǎng)站收錄的關(guān)鍵。

06.AI文章最近會(huì)被K么

大家最近在使用AiPie也在問我這個(gè)問題,“百度現(xiàn)在都在處理算法了,低于2000字的文章不收錄?”“是不是AI文章現(xiàn)在要降權(quán)啊”,針對這個(gè)問題可能和某些資本有關(guān),這里不具體指誰,畢竟我不賣網(wǎng)站,所以我只能告訴大家一個(gè)現(xiàn)實(shí), 之所以有人會(huì)散布消息說K你 是因?yàn)槟承┤说恼締蝺r(jià)被你們拉低了 之前賣4k 現(xiàn)在2k都可能賣不出去了 哈哈哈,當(dāng)然你說百度沒有針對AI文章的算法么?真的不管么?那也肯定不是,只能說,文章質(zhì)量上去了,排版美觀了,文案科學(xué)具體,不具有更多AI特征,那不就是原創(chuàng)么?百度奈你何? 總的來說 百度不會(huì)平白無故給你漲權(quán)重 你都不發(fā)文章了 人家在偷偷發(fā) 吃虧的只會(huì)是你

07.AiPie支持程度

目前AiPie支持了市面上大部分CMS,可以實(shí)現(xiàn)全自動(dòng)24小時(shí)發(fā)布

支持大模型

[1]Openai

[2]谷歌bard

[3]ollama本地大模型

[4]kimi

[5]360智腦

[6]訊飛星火大模型

[7]百度ERNIE

[8]百川AI

[9]商湯大模型

[10]昆侖天工AI

[11]零一萬物

[12]MiniMaxAI

[13]智譜AI

[14]紫東太初maasAI

[15]阿里云通義千問

[16]DeepseekAI

[17]火山引擎豆包

[18]TigerBotAI

[19]騰訊混元大模型

[20]孟子大模型

[21]元象通用大模型

[22]Jan本地AI大模型

[23]LlamaFamily

支持CMS

[1]WellCMS

[2]MySQL數(shù)據(jù)庫

[3]Local本地化

[4]DedeCMS

[5]DiscuzX|DiscuzQ

[6]WordPress 

[7]極致CMS

[8]ModStar

[9]Emlog

[10]Typecho

[11]PHPCMS

[12]PbootCMS

[13]Zblog

[14]EyouCMS

[15]迅睿CMS

[16]帝國CMS

[17]Halo

[18]Ghost

[19]接定制

支持插件

[1]dtitle雙標(biāo)題生成器

[2]Longs長尾詞擴(kuò)寫

[3]多平臺發(fā)布(tasks)

[4]ai2word AI偽原創(chuàng)

[5]translate AI翻譯

[6]《Nature》風(fēng)格潤色

[7]小紅書語料

[8]titletool標(biāo)題生成

[9]txt_cms轉(zhuǎn)發(fā)插件

[10]百度文本安全AI審核



關(guān)鍵詞:

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉