這次的讀書筆記主要介紹機器學習背景和基礎概念
1 機器學習背景
數(shù)據(jù)現(xiàn)狀
20世紀70年代曾遇巨大瓶頸,原因有計算能力 + 數(shù)據(jù)量的不足。隨著互聯(lián)網(wǎng)的普及和對用戶數(shù)據(jù)的大量采集,數(shù)據(jù)量不足的問題已逐漸彌補,機器學習算法的價值越來越大。但在傳統(tǒng)領域,如建筑行業(yè),數(shù)據(jù)產(chǎn)生于工地的一磚一瓦,采集起來會更困難和麻煩,隨著圖像識別技術的進步和普及,這樣的問題能夠慢慢解決,但不得不說,傳統(tǒng)領域的數(shù)據(jù)智能化仍然是比較慢的進程。(這里可以自行了解下百度在傳統(tǒng)領域的AI技術落地情況)。目前主流的機器學習算法是監(jiān)督學習算法,該算法需要的是打標過的數(shù)據(jù),而數(shù)據(jù)的打標十分依賴人工標記,之前在實習的時候,給短視頻的標簽做標記都能把我搞得頭昏腦漲。人工打標有幾個問題:成本高 + 量級小
機器學習算法現(xiàn)狀
機器學習已滲透到生活的各個方面,特別是在互聯(lián)網(wǎng)領域。用網(wǎng)購場景來舉例。
1)你在路上看到陌生人的一件T恤你很喜歡 → 使用淘寶的【拍立淘】(圖像識別技術)
2)在淘寶搜索框語音輸入商品名稱(語音轉文字技術)
3)商品的個性化推薦(推薦算法)
4)商品下單 → 若錢不夠用 → 借錢 → 貸款額度顯示(由機器學習算法計算)
5)下單后 → 短時間完成商品包裝、庫存發(fā)貨到中轉庫存、從低級倉庫到高級倉庫配送、向下分發(fā)(機器學習算法)
6)快遞員配送 → 系統(tǒng)設計最優(yōu)路線(機器學習算法規(guī)劃)
7)商品投訴 → 智能客服立即回復(文本的語義分析算法,精準確定問題)
以上的過程涉及了模型的訓練和預測、語義分析、文本情感分析、圖像識別以及語音識別技術
機器學習高頻場景
1)聚類場景
人群劃分和產(chǎn)品種類劃分等
2)分類場景
廣告投放預測和網(wǎng)站用戶點擊預測等
3)回歸場景
降雨量預測、商品購買量預測和股票成交額預測等
4)文本分析場景
新聞標簽提取、文本自動分類和文本關鍵信息抽取
5)關系圖算法
社交網(wǎng)絡關系網(wǎng)絡關系挖掘和金融風險控制等
6)模式識別
語音識別、圖像識別和手寫字識別
總評
機器學習+ 是大趨勢
2 基本概念
機器學習流程
1)場景解析
把業(yè)務邏輯和算法進行匹配
2)數(shù)據(jù)預處理
清洗數(shù)據(jù),將數(shù)據(jù)進行歸一化或標準化,減少量綱和噪音。
3)特征工程
機器學習最重要步驟。在算法固定的情況下,特征的選擇決定了模型的效果
4)模型訓練
訓練數(shù)據(jù)經(jīng)過了預處理 + 特征工程后進入訓練階段。
5)模型評估
對各模型的預測結果評估
6)離線/在線服務
數(shù)據(jù)源結構
1)結構化數(shù)據(jù)
矩陣結構存儲,通常包含特征列+目標列。機器學習算法通常只支持結構化數(shù)據(jù)
2)非結構化數(shù)據(jù)
圖像、文本或語音文件,不以矩陣機構存儲,是目前技術熱點,通常將其轉化為二進制存儲格式
3)半結構化數(shù)據(jù)
典型的半結構化數(shù)據(jù)是XML拓展名的存儲數(shù)據(jù)
算法分類
1)監(jiān)督學習
有特征值+目標隊列,依賴打標,常用于回歸和分類算法
2)無監(jiān)督學習
無目標值,不依賴數(shù)據(jù)的打標,通常用于聚類算法
3)半監(jiān)督學習
對樣本的部分進行打標,一種半監(jiān)督算法 —— 標簽傳播算法
4)強化學習
人工智能領域熱點。系統(tǒng)與外界不斷交互,從而決定自身的行為,如無人汽車駕駛和阿法狗下圍棋
使用機器學習算法常見問題
過擬合問題
算法結果評估
1、精確率、召回率、F1值
2、ROC和AUC
另外還需要了解的指標:TP、FP、TN、FN
總評
基礎概念的理解有利于幫助入門
來源:網(wǎng)絡整理 免責聲明:本文僅限學習分享,如產(chǎn)生版權問題,請聯(lián)系我們及時刪除。