崗位職責
1、負責AI相關服務器、存儲、網絡設備的規(guī)劃、配置、監(jiān)控和故障排除;
2、負責AI相關平臺環(huán)境的搭建、發(fā)布升級、運維監(jiān)控等,保障服務器穩(wěn)定性和可用性。
3、負責處理線上故障,分析原因,設計解決方案和應急預案;
4、針對公司基礎設施、相關產品及數(shù)據(jù),規(guī)劃安全運維策略,預防各類安全威脅,保障 AI 系統(tǒng)數(shù)據(jù)與業(yè)務安全;
5、協(xié)助編寫項目相關文檔,配合項目經理完成項目管理工作,推動項目驗收;
任職要求
1、精通 Linux、Windows 相關服務器操作,能夠熟練進行服務器的安裝、配置、調優(yōu)以及故障排查;
2、熟練掌握網絡基礎知識,了解容器技術(如 Docker、Kubernetes),熟悉主流公有云及相關產品操作;
3、掌握主流的數(shù)據(jù)庫(如 MySQL、PostgreSQL 等)安裝、維護、調優(yōu)等操作,了解數(shù)據(jù)庫的備份與恢復策略;
4、熟悉至少一種自動化運維工具(Ansible、SaltStack、Puppet 等),有較強的腳本編寫能力(Shell、Python 等),能夠獨立開發(fā)自動化運維腳本;
5、熟悉 AI 相關技術棧,包括深度學習框架(TensorFlow、PyTorch 等)的部署與運維,有 GPU 集群管理經驗,了解GPU虛擬化技術;