崗位職責
1.整理和預(yù)處理多模態(tài)語料庫和結(jié)構(gòu)化知識源。
2.構(gòu)建、擴展和維護領(lǐng)域本體 / 知識圖譜庫。
3.確保數(shù)據(jù)質(zhì)量、版本控制和沿襲追蹤。
4.搭建強大的 ETL 管道,確保原始源(如網(wǎng)絡(luò)爬蟲、數(shù)據(jù)庫、PDF)被系統(tǒng)地攝取、清理、規(guī)范化和格式化,以用于神經(jīng)訓練和符號規(guī)則編碼。
5.將異構(gòu)數(shù)據(jù)集(非結(jié)構(gòu)化文本語料庫、結(jié)構(gòu)化事實、用戶日志)集中到一個集成存儲庫中,支持對訓練數(shù)據(jù)和符號事實的高效查詢、切片和歷史跟蹤,啟用數(shù)據(jù)集的版本控制。
6.進行知識圖譜構(gòu)建工作,將領(lǐng)域語義(實體、關(guān)系、本體)編碼為圖形形式,促進文本衍生概念與結(jié)構(gòu)化符號的鏈接,通過在添加或更新事實時應(yīng)用模式驗證和推理檢查,確保知識庫的一致性和連貫性。
任職要求
1.專業(yè)背景:計算機、數(shù)據(jù)科學、軟件工程等相關(guān)專業(yè)。
2.學歷要求:碩士學歷及以上;本科學歷如有優(yōu)秀項目經(jīng)驗也可接受。
3.工作經(jīng)驗:至少 2 年相關(guān)項目經(jīng)驗,有重要項目突破經(jīng)歷可放寬至 1 年。
4.技能要求:具備 ETL(提取、轉(zhuǎn)換、加載)、數(shù)據(jù)倉庫、知識圖譜構(gòu)建經(jīng)驗,掌握 SQL/NoSQL、Apache Spark、Neo4j 或類似的圖形數(shù)據(jù)庫、數(shù)據(jù)清理、模式設(shè)計。
工作地點:天津、杭州、珠海