基于多頭注意力機(jī)制與長短期記憶網(wǎng)絡(luò)的自然場景文本識(shí)別
摘要: 隨著計(jì)算機(jī)視覺和自然語言處理技術(shù)的不斷發(fā)展,自然場景文本檢測與識(shí)別技術(shù)已成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一。提出了一種基于多頭注意力機(jī)制與長短期記憶網(wǎng)絡(luò)(LSTM)的自然場景文本檢測與識(shí)別方法。該方法通過結(jié)合目標(biāo)檢測算法和序列識(shí)別算法,利用多頭注意力機(jī)制對圖像中的文本區(qū)域進(jìn)行精確的定位和特征提取,進(jìn)而通過LSTM網(wǎng)絡(luò)對提取的特征進(jìn)行編碼和解碼,實(shí)現(xiàn)對自然場景中文本的準(zhǔn)確識(shí)別。在文... (共6頁)
開通會(huì)員,享受整站包年服務(wù)