如果你正在考慮一個機器學習工程師的職業生涯,那么你應該明白兩件非常重要的事情。
首先,這不是一個“純粹的”學術角色。你不一定要有研究或學術背景。
其次,只有軟件工程或數據科學的經驗還不夠。理想的情況下,你需要同時擁有這兩種技能。
了解數據分析師和機器學習工程師之間的差異也至關重要。簡單來說,他們關鍵的區別與最終目標有關。作為數據分析師,您需要分析數據,以便講述故事,并產生可操作的見解。重點是傳播圖表,模型,可視化。分析由人類執行并呈現給其他人,然后他們可以根據所呈現的內容進行業務決策。這一點尤為重要 - 您的輸出的“觀眾”是人。
另一方面,作為機器學習工程師,您的最終“輸出”是工作軟件,您的“受眾”對于此輸出通常由其他軟件組件以最少的人力監督自主運行。產生出的智能仍然是可操作的,但在機器學習模型中,機器正在做出決策,影響產品或服務的行為。這就是為什么軟件工程技能對于機器學習的事業來說非常重要。
在進入具體的技能之前,還有一個要解決的概念。作為機器學習工程師需要了解您正在設計的整個生態系統。假設您正在為一家雜貨連鎖店工作,該公司希望根據以往購買客戶的歷史記錄開始發行目標優惠券,目的是產生購物者實際使用的優惠券。在數據分析模型中,您可以收集采購數據,進行分析以確定趨勢,然后提出策略。機器學習方法將是編寫自動優惠券生成系統。但是寫這個系統需要什么,并且有效嗎?您必須了解整個生態系統的庫存,目錄,定價,采購訂單,單據生成,銷售點軟件,CRM軟件等。
現在,我們來了解一下機器學習工程師所需要的真實細節。分為三個主要部分:技能摘要,語言和庫,工程實現。
計算機基礎和編程。計算機科學基礎對于機器學習工程師來說重要,包括數據結構(堆棧,隊列,多維數組,樹,圖等),算法(搜索,排序,優化,動態規劃等),可計算性和復雜性(P vs NP,NP完整問題,大O符號,近似算法等)和計算機體系結構(內存,緩存,帶寬,死鎖,分布式處理等)。
編程時,您必須能夠應用,實施,調整或解決它們(如適用)。練習問題和編碼比賽是磨練你的技能的好方法。
概率統計。概率(條件概率,貝葉斯規則,似然性,獨立性等)和從其衍生的技術(貝葉斯網絡,馬爾可夫決定過程,隱馬爾可夫模型等)的形式表征是許多機器學習算法的核心; 這些是處理現實世界不確定性的手段。
統計學領域提供各種措施(平均值,中位數,方差等),分布(統一,正態,二項式,泊松等)和分析方法(方差分析,假設檢驗等) 這是從觀測數據建立和驗證模型所必需的。許多機器學習算法本質上是統計建模過程的擴展。
數據建模和評估。數據建模是估計給定數據集的基礎結構的過程,其目的是找到有用的模式(相關性,聚類,特征向量等)和/或預測以前看不見的實例(分類,回歸,異常檢測等)的屬性。這個估計過程的關鍵部分是不斷評估給定模型的好壞。
根據手頭的任務,您將需要選擇適當的準確度/誤差測量(例如分類的對數損失,回歸的平方誤差等)和評估策略(訓練分析,順序 vs.隨機交叉驗證等)。
迭代學習算法通常直接利用產生的錯誤來調整模型(例如神經網絡的反向傳播),所以理解這些措施相比于僅僅應用標準算法是非常重要的。
機器學習算法的標準實現通過庫/包/ API廣泛提供(例如,scikit-learn,Theano,Spark MLlib,H2O,TensorFlow等),但是有效地應用它們涉及選擇合適的模型(決策樹,最近鄰,神經網絡,支持向量機,混合模型等),擬合數據的學習過程(線性回歸,梯度下降,遺傳算法,bagging,boosting和其他模型特定方法),以及了解超參數如何影響學習。
還需要了解不同方法的相對優點和缺點,以及一些其他的概念(偏差和方差,過擬合和欠擬合,缺失數據,數據泄漏等)。數據科學和機器學習的挑戰,如Kaggle的挑戰,是一個接觸不同種類的問題及其細微差別的很好的方式。
在任務結束時,機器學習工程師的典型輸出或可交付成果是軟件。通常它是一個適合更大的產品和服務生態系統的小部件。當然,大的公司,這部分可能交付給軟件研發工程師來做。
您需要了解這些不同的部分如何協同工作,與他們進行溝通(使用庫調用,REST API,數據庫查詢等),并為您的組件構建適合的接口以供其他人依賴。這可能需要謹慎的系統設計以避免瓶頸,并且隨著數據量的增加,您的算法可以很好地擴展。軟件工程最佳實踐(包括需求分析,系統設計,模塊化,版本控制,測試,文檔等)對于生產力,協作,質量和可維護性是無價的。
中郵無人機(北京)有限公司揭牌
2146 閱讀智能倉儲企業“智世機器人”完成數千萬元A輪融資
1578 閱讀聊聊2025年物流企業如何做營銷規劃
1534 閱讀這家老牌物流巨頭被整合重組,四千多名員工將何去何從?
1466 閱讀物流供應鏈領域“吸金”不力,但能給投融資事件頒幾個獎
937 閱讀極兔速遞2024年第四季度包裹量增長32.5% 全球日均單量超8000萬件
958 閱讀京東緊急馳援西藏震區,首批救援物資已由專車送出
962 閱讀2024LOG供應鏈物流?突破創新獎候選案例——準時達國際供應鏈管理有限公司
875 閱讀仿生學:蜂巢帶給供應鏈管理的啟示
843 閱讀人民日報“晚安短信計劃”關注電商西進:拼多多新農人傳遞溫暖
877 閱讀