AI多媒體技術(shù)在內(nèi)容審核場(chǎng)景實(shí)踐探索-2024.07-33正式版_第1頁
AI多媒體技術(shù)在內(nèi)容審核場(chǎng)景實(shí)踐探索-2024.07-33正式版_第2頁
AI多媒體技術(shù)在內(nèi)容審核場(chǎng)景實(shí)踐探索-2024.07-33正式版_第3頁
AI多媒體技術(shù)在內(nèi)容審核場(chǎng)景實(shí)踐探索-2024.07-33正式版_第4頁
AI多媒體技術(shù)在內(nèi)容審核場(chǎng)景實(shí)踐探索-2024.07-33正式版_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AI多媒體技術(shù)在內(nèi)容審核場(chǎng)景實(shí)踐探索馬金龍

趣丸科技(TT語音)個(gè)人介紹馬金龍

多年媒體算法開發(fā)經(jīng)驗(yàn),涉及音視頻圖像文本,負(fù)責(zé)過音頻前后端處理,弱網(wǎng)優(yōu)化,音視頻質(zhì)量提升,智能內(nèi)容安全審核“T網(wǎng)”,內(nèi)容理解“T悟”等大型項(xiàng)目。曾作為“靈聲訊”創(chuàng)始人,參與智能媒體技術(shù)自媒體運(yùn)營和推廣。0102030405內(nèi)容審核目前現(xiàn)狀與挑戰(zhàn)AI多媒體技術(shù)實(shí)踐之路智能內(nèi)容審核平臺(tái)案例AIGC內(nèi)容風(fēng)控實(shí)踐未來展望1.內(nèi)容審核目前現(xiàn)狀與挑戰(zhàn)現(xiàn)狀?

政府監(jiān)管越來越嚴(yán)?

用戶內(nèi)容層出不窮?

違規(guī)種類繁雜?

AIGC內(nèi)容不可控挑戰(zhàn)?

【實(shí)時(shí)性】需要緊跟政府管控要求?

【準(zhǔn)確性】對(duì)花樣變體不漏殺不誤殺?

【多樣性】違規(guī)種類需不同算法解決?

【未知性】AIGC生成內(nèi)容不確定且存在知識(shí)“幻覺”2.AI多媒體技術(shù)實(shí)踐之路自建

OR第三方?2.AI多媒體技術(shù)實(shí)踐之路自建優(yōu)勢(shì):極速響應(yīng)生態(tài)保障高效定制可管可控具備數(shù)據(jù)血源追蹤、問題實(shí)時(shí)監(jiān)控、技術(shù)輔助運(yùn)營等風(fēng)控能力針對(duì)安全,時(shí)效等方面推出高響應(yīng)審核,讓內(nèi)容審核安全高效通過機(jī)審結(jié)果多樣化處置、賬號(hào)違規(guī)處置等多種手段,保障平臺(tái)生態(tài)安全推出特殊時(shí)期/突發(fā)事件的相關(guān)定制化,快速響應(yīng)國家政府的緊急要求2.AI多媒體技術(shù)實(shí)踐之路T網(wǎng)

是一個(gè)通過人工智能的算法打造一站式內(nèi)容安全機(jī)器審核的平臺(tái),幫助公司審核團(tuán)隊(duì)實(shí)現(xiàn)語音,文本,圖像,小視頻等風(fēng)險(xiǎn)管控的能力。2.1語音識(shí)別2.2NLP文本審核2.3多模態(tài)識(shí)別2.4音頻事件檢測(cè)2.5小語種識(shí)別2.6歌曲識(shí)別對(duì)于此項(xiàng)目的目的可總結(jié)如下:?

貫徹國家網(wǎng)信辦有關(guān)網(wǎng)絡(luò)內(nèi)容安全的各項(xiàng)規(guī)定?

低成本高效率的加強(qiáng)內(nèi)容風(fēng)險(xiǎn)管控?

構(gòu)建智能審核技術(shù)護(hù)城河,為公司內(nèi)容生態(tài)保駕護(hù)航2.7聲紋識(shí)別2.8違規(guī)圖像識(shí)別?

探索內(nèi)容審核新方法,踐行公司的社會(huì)責(zé)任2.1ASR-技術(shù)方案技術(shù)目標(biāo)用戶產(chǎn)生的語音數(shù)據(jù)輸入ASR模型,模型輸出該語音的文字內(nèi)容,以供下一環(huán)節(jié)NLP檢查是否包含違規(guī)詞,或違規(guī)內(nèi)容。模型總體邏輯使用深度學(xué)習(xí)模型Transformer/Conformer(如圖中SharedEncoder)提取輸入音頻中的特征使用CTC解碼得到若干候選文本。圖1.T網(wǎng)-ASR端對(duì)端方案2.1ASR架構(gòu)EfficientConformer?

Convolutionneuralnetworks和transformersmodels組合?

EfficientConformer設(shè)計(jì)?

結(jié)合量化剪枝和蒸餾技術(shù),壓縮模型大小?

提供CPU和GPU,支持高吞吐量識(shí)別圖2.T網(wǎng)-ASR支持的功能圖3.ASR中Efficientconformer技術(shù)方案2.1ASR-效果圖4T網(wǎng)-ASR優(yōu)化后的推理速度圖5.ASR測(cè)試報(bào)告

(CER)和模型大小2.2NLP算法總體框架NLP算法模型:?

Bert算法?

Prompt算法?

Fasttext算法?

AIGC語料生成算法?

文本表情復(fù)雜表示的多模態(tài)識(shí)別算法?

關(guān)鍵詞挖掘算法圖6.T網(wǎng)-NLP總體框架2.2NLP內(nèi)容審核的困難與挑戰(zhàn)純文本審核面臨的問題與挑戰(zhàn):我們的成功案例:?

變體關(guān)鍵詞的多樣化?

構(gòu)建變體關(guān)鍵詞挖掘系統(tǒng)?

構(gòu)建文本表情字母多模態(tài)識(shí)別系統(tǒng)?

AIGC語料生成系統(tǒng)?

文字與表情包的結(jié)合的復(fù)雜表達(dá)?

文字與字母或字母縮寫結(jié)合的復(fù)雜表達(dá)?

特定場(chǎng)景語料不足與稀疏性?

特定關(guān)鍵詞詞的隱晦表達(dá)?

正常詞與關(guān)鍵詞相同,但不同上下文上語義不同?

異常關(guān)鍵詞大數(shù)據(jù)監(jiān)測(cè)系統(tǒng)?

多層次語義分析系統(tǒng)2.2NLP內(nèi)容審核-效果呈現(xiàn)違規(guī)標(biāo)簽辱罵精確率94.45%95.03%91.31%90.96%92.98%色情涉政廣告違禁圖7.NLP關(guān)鍵詞挖掘示意圖圖8.NLP文本審核效果2.2文本未成年人識(shí)別關(guān)鍵詞匹配分析框架,支持多種匹配方式、多種過濾條件,并支持自定義特殊標(biāo)記,及支持特定動(dòng)作行為,將未成年人識(shí)別實(shí)現(xiàn)模組化的流程分析。未成年識(shí)別精確率99%+;圖9.T網(wǎng)文本未成年人審核技術(shù)框架2.3多模態(tài)算法原理項(xiàng)目背景?

單模態(tài)審核特征不全面,多模態(tài)結(jié)合語氣和語義信息可提高處罰有效率。?

人工審核量級(jí)大,需要對(duì)不同類型的違規(guī)進(jìn)行靈活處置。建模算法?

Transformer跨模態(tài)多頭注意力機(jī)制;?

隨機(jī)森林;模態(tài)α模態(tài)β圖11.隨機(jī)森林圖10.Transformer跨模態(tài)多頭注意力機(jī)制2.3多模態(tài)高準(zhǔn)召回模型指標(biāo)?

多模態(tài)算法上線處罰有效率為99%+;?

如右圖,每日占總機(jī)審違規(guī)樣本約17%;模型價(jià)值?

提高對(duì)違規(guī)樣本的召回,減少單模態(tài)的漏召;?

提供高準(zhǔn)標(biāo)簽運(yùn)用在靈活處置:a.提高處罰響應(yīng)速度;b.提升人工審核效率;圖12.多模態(tài)辱罵命中數(shù)量及占比2.4聲音事件檢測(cè)(SoundEventDetection)檢測(cè)的聲音事件:?

審核類?

嬌喘,炸房,怒罵?

普通標(biāo)簽

BRaSS?

背景音樂(BGM,B)?

說唱(Rap,Ra)?

說話(Speech,S)?

唱歌(Sing,S)模型價(jià)值?

完善對(duì)聲音類違規(guī)的審核能力。?

音頻類型分流,降低后續(xù)模型成本。?

語音直播趨勢(shì)分析。圖13.聲音事件檢測(cè)2.5

語種識(shí)別項(xiàng)目背景:線上特定語種管控方案流程:利用音頻預(yù)訓(xùn)練hubert模型的特征解析功能,結(jié)合TT語音線上直播數(shù)據(jù)和部分開源數(shù)據(jù)集進(jìn)行模型fine-tune,從而針對(duì)特定語種等進(jìn)行識(shí)別。模型效果:針對(duì)特定語種的測(cè)試精準(zhǔn)率為97.58%。圖14.語種識(shí)別2.6

歌曲識(shí)別項(xiàng)目背景:線上歌曲(如劣跡藝人作品等)管控方案流程:將原始劣跡歌曲處理得到的指紋信息存儲(chǔ)于歌曲指紋庫,用于進(jìn)行輸入歌曲片段的相似度比對(duì),并增添音頻文件分析接口用于分析完整歌曲。模型效果:針對(duì)劣跡藝人歌曲的識(shí)別精準(zhǔn)度為94.16%;圖15.歌曲識(shí)別2.7聲紋識(shí)別項(xiàng)目背景:人物聲紋識(shí)別,針對(duì)特定的人物可以做具體管控方案流程:?

VAD進(jìn)行語音活性檢測(cè),提取人聲部分;?

ResNet34作為主干網(wǎng)絡(luò),利用線上業(yè)務(wù)數(shù)據(jù)和部分開源數(shù)據(jù)進(jìn)行微調(diào)訓(xùn)練;?

利用余弦相似度計(jì)算兩個(gè)聲紋之間的相似性。模型效果和應(yīng)用:圖16.聲紋識(shí)別1.特定人物聲紋攔截精確率98%+;2.8涉黃圖像識(shí)別模型效果和應(yīng)用項(xiàng)目背景?

在TT語音下,機(jī)審攔截內(nèi)容識(shí)別準(zhǔn)確率為93.15%;線上色情、性感類涉黃圖像識(shí)別?

應(yīng)用于TT語音和AIGC圖片場(chǎng)景;方案流程分支任務(wù)1分支任務(wù)2違規(guī)粗粒度標(biāo)簽?

基于經(jīng)典ResNet50預(yù)訓(xùn)練模型結(jié)構(gòu),利用線上業(yè)務(wù)數(shù)據(jù)和部分開源數(shù)據(jù)進(jìn)行微調(diào)訓(xùn)練;?

同時(shí)考慮到標(biāo)注成本和線上標(biāo)簽數(shù)據(jù)形態(tài),結(jié)合多任務(wù)圖像識(shí)別算法更改模型結(jié)構(gòu)進(jìn)行學(xué)習(xí),從而實(shí)現(xiàn)較為精準(zhǔn)地識(shí)別涉黃圖像;輸入圖片主干模型違規(guī)細(xì)粒度標(biāo)簽圖17.涉黃圖像識(shí)別3.智能內(nèi)容審核平臺(tái)案例-架構(gòu)圖圖18.T網(wǎng)架構(gòu)圖3.智能內(nèi)容審核平臺(tái)案例-流程圖圖19.T網(wǎng)審核流程圖3.智能內(nèi)容審核平臺(tái)-微服務(wù)架構(gòu)entranceschedulerschedulerschedulerasrtranscodeT網(wǎng)架構(gòu)處理能力...共x種rtpnlpT網(wǎng)系統(tǒng)可靠性?

自研任務(wù)編排系統(tǒng)(AI中臺(tái)一部分),統(tǒng)一算力管理和容災(zāi)?

拆分算法服務(wù),細(xì)粒度的算力伸縮和統(tǒng)一調(diào)度?

最大并發(fā)語音流可線性擴(kuò)展?

Pod個(gè)數(shù)?

微服務(wù)?

支持多可用區(qū)部署圖20.T網(wǎng)微服務(wù)架構(gòu)3.智能內(nèi)容審核平臺(tái)-多任務(wù)調(diào)度方案目的:實(shí)現(xiàn)可動(dòng)態(tài)配置的媒體算法加工流水線,滿足任意租戶的不同審核需求算法層A-streamingTTUKI唱鴨...拉流sedasrasrnlpsedasrA-streaming-tttranscode調(diào)度層B-streaming-ukiB-streamingBRassnlpC-streaming-changyanlptranscode圖21.T網(wǎng)多任務(wù)調(diào)度方案3.智能內(nèi)容審核平臺(tái)-T網(wǎng)管理后臺(tái)圖22.T網(wǎng)-審核后臺(tái)3.智能內(nèi)容審核平臺(tái)-BI報(bào)表圖23.T網(wǎng)-BI報(bào)表展示4.AIGC內(nèi)容風(fēng)控實(shí)踐圖24.AIGC平臺(tái)4.AIGC內(nèi)容風(fēng)控實(shí)踐-文生文攔截針對(duì)文生文場(chǎng)景,利用關(guān)鍵詞+語義理解審核技術(shù),對(duì)輸入和輸出進(jìn)行審核圖25.AIGC-文生文審核4.AIGC內(nèi)容風(fēng)控實(shí)踐-文生圖審核針對(duì)文生圖場(chǎng)景,利用AI圖像涉政&涉黃審核技術(shù),降低風(fēng)控風(fēng)險(xiǎn)?

對(duì)涉黃類的裸露、行為、性感等進(jìn)行攔截?

對(duì)涉政內(nèi)容進(jìn)行攔截不合規(guī)圖片?

存在的問題:

生成圖不可控、不合理圖26.AIGC文生圖審核5.未來展望?

利用LLM能力強(qiáng)化語義理解,提升審核準(zhǔn)確率和數(shù)據(jù)收集速度?

用戶對(duì)抗下的精細(xì)化算法模型,強(qiáng)化多模態(tài)復(fù)雜任務(wù)決策?

審核平臺(tái)的langchain+LLM工作流介入,打通輿情監(jiān)控到內(nèi)審決策全鏈路?

AIGC內(nèi)容用傳統(tǒng)算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論