北森AI智能簡歷解析技術(shù)獲國家發(fā)明專利

北森

2020-12-29 11:39 5335

近日，北森獲得國家知識產(chǎn)權(quán)局授權(quán)的AI簡歷解析相關(guān)技術(shù)發(fā)明專利 -- “一種基于深度學(xué)習(xí)的簡歷解析方法和系統(tǒng)”。該項專利技術(shù)由北森成都總部相關(guān)團隊研發(fā)，專利期限為20年，將被用于招聘場景下大規(guī)模、多類別、復(fù)雜簡歷的智能化解析。

北京2020年12月29日 /美通社/ -- 近日，北森獲得國家知識產(chǎn)權(quán)局授權(quán)的AI簡歷解析相關(guān)技術(shù)發(fā)明專利 -- “一種基于深度學(xué)習(xí)的簡歷解析方法和系統(tǒng)”。該項專利技術(shù)由北森成都總部相關(guān)團隊研發(fā)，專利期限為20年，將被用于招聘場景下大規(guī)模、多類別、復(fù)雜簡歷的智能化解析。

本次申請的是北森簡歷解析的核心技術(shù)專利。無論是招聘網(wǎng)站的固定格式簡歷，還是候選人郵箱投遞的表格式、自由格式簡歷，甚至是移動端拍照上傳的圖片簡歷，該技術(shù)可以從任意格式的半結(jié)構(gòu)化文檔簡歷中，提取候選人的個人信息、工作經(jīng)歷、教育背景等字段信息，以支持后續(xù)搜索、篩選、智能推薦等工作展開。

相比于目前市面上常見的簡歷解析技術(shù)，北森實現(xiàn)兩大突破。

其一，字段提取方法上，使用獨立的語句切分+文本分類模型替換序列標(biāo)注。

同類的其他技術(shù)在提取字段信息時，是通過序列標(biāo)注模型來識別目標(biāo)實體的起止位置和類別，這種方式會增加任務(wù)的訓(xùn)練難度，對訓(xùn)練數(shù)據(jù)也有更高要求。

北森則利用“半結(jié)構(gòu)化簡歷的布局通常更明晰，字段之間會以空格、冒號等隔開”的特點，將字段的提取分為語句切分和字段類別識別兩個階段任務(wù)分別建模實現(xiàn)。相比于以往，該方法可以提取長文本字段，讓起止位置的識別更準(zhǔn)確，并且能夠支持上百種類別識別。

其二，使用句子粒度的區(qū)塊和分條模型替換詞粒度的分類器。

在從簡歷中確定個人信息、教育經(jīng)歷、工作經(jīng)歷等區(qū)塊的位置時，同類技術(shù)最好的方法是以詞為粒度，每行文本獨立地通過文本分類模型得到區(qū)塊類別。但是這種技術(shù)在遇到相似的信息時，比如相似的實習(xí)經(jīng)歷或工作經(jīng)歷，容易出現(xiàn)判別錯誤。

實際上，通過大量分析簡歷發(fā)現(xiàn)，簡歷的每行內(nèi)容屬于哪個區(qū)塊是有一定相關(guān)性的，即當(dāng)前行屬于哪個區(qū)塊會受到上一行和下一行內(nèi)容的影響。所以，北森提出區(qū)塊和條目識別模型的序列標(biāo)注，以句子為單位進行輸入，且包括類別信息，可以在建模過程中直接捕獲到前后幾行對當(dāng)前行的影響，大大提升準(zhǔn)確率。

從最原始的模板解析到現(xiàn)在基于深度學(xué)習(xí)的智能簡歷解析，北森簡歷解析經(jīng)歷了四大發(fā)展階段，每一次重構(gòu)都是重大突破。目前簡歷解析涉及從文檔讀取、布局識別、字段識別等方方面面，而北森將持續(xù)探索簡歷解析技術(shù)的研發(fā)與落地，為行業(yè)帶來更優(yōu)體驗。

“基于深度學(xué)習(xí)的簡歷解析方法和系統(tǒng)”將進一步在北森的招聘產(chǎn)品及服務(wù)中進行應(yīng)用。通過在內(nèi)容提取、類別識別等各個方面的優(yōu)化，相關(guān)產(chǎn)品將創(chuàng)新性推出更準(zhǔn)確、更全面的簡歷字段解析體驗；同時，北森會針對渠道簡歷、獵頭推薦簡歷等樣式較固定的簡歷提供了解析配置，遇到個別字段解析出現(xiàn)問題可以快速響應(yīng)，快速兼容，影響小上線快，給客戶更好的技術(shù)支持體驗。

消息來源：北森