連續變數的問題,透過圖書和論文來找解法和答案更準確安心。 我們找到下列懶人包和總整理

連續變數的問題,我們搜遍了碩博士論文和台灣出版的書籍,推薦林建甫寫的 醫學統計 和王賀劉鵬錢乾的 機器學習算法競賽實戰都 可以從中找到所需的評價。

另外網站量測系統連續型資料分析 - JMP也說明:量測系統連續型資料分析. 評估以連續變數為基礎之量測系統的性能。 逐步指南. 檢視指南. 在JMP 的位置. 分析> 品質與製程> Variability / Attribute Gauge Chart ...

這兩本書分別來自雙葉書廊 和人民郵電所出版 。

國立臺北大學 統計學系 須上英所指導 成玉琳的 混合型資料投影法及其於分群之應用 (2021),提出連續變數關鍵因素是什麼,來自於混合型資料、量化方法、線性判別分析、最小平方法。

而第二篇論文東吳大學 財務工程與精算數學系 张揖平所指導 丁竹松的 不平衡信用風險違約資料的處理方法比較 (2021),提出因為有 不平衡数据、信用风险的重點而找出了 連續變數的解答。

最後網站第2單元描述統計| 心理科學基礎統計則補充:連續尺度:當一筆資料內容都是數字,數值有小數點或有超過25種數值,程式都會判定為連續尺度。這類資料的數值 ... 單一自變項為連續變數, 散佈圖(scattor plot)(單元8).

接下來讓我們看這些論文和書籍都說些什麼吧:

除了連續變數,大家也想知道這些:

醫學統計

為了解決連續變數的問題,作者林建甫 這樣論述:

  醫學統計主要討論醫學研究設計與醫學資料分析,本書以最常見的醫學研究為主軸,大約涵蓋 70% 醫學論文使用的統計方法,分成二大部分,第一部分主要是統計的基本訓練,包含常見的臨床醫學研究與醫學統計概論,第二部分是介紹常見的醫學實驗設計與中階醫學統計方法。   本書主要寫作對象為須要開始從事臨床醫學研究的醫師與研究人員,作者嘗試結合作者個人臨床醫學研究與醫學統計諮詢經驗,以醫學與統計雙方都較能了解的語言與文字,將基本的醫學研究設計與醫學資料分析方法作聯結討論,主要內容包含:   1. Probability and Exploratory Data Analysis   

2. Observational Study Design and Clinical Trials   3. Common Probability Distributions and Sampling Distributions   4. Estimation and Testing Hypothesis   5. One-sample Inference and Two-sample Inference   6. Linear Regression and ANCOVA   7. ANOVA and Experimental Design   8. Contingency Table Ana

lysis and Logistic Regression   9. Event Rate and Poisson Regression   10. Survival Analysis and Longitudinal Data Analysis   11. Agreement and Consistency in Method Comparison Studies  

連續變數進入發燒排行的影片

【摘要】
本影片承接上回許願池影片,講解連續變數的機率分布,包含均勻分布、指數分布、常態分布、Gamma 分布和 Beta 分布及他們的機率密度函數與期望值和變異數

【加入會員】
歡迎加入張旭老師頻道會員
付費定閱支持張旭老師,讓張旭老師能夠拍更多的教學影片
https://www.youtube.com/channel/UCxBv4eDVLoj5XlRKM4iWj9g/join

【會員等級說明】
博士等級:75 元 / 月
- 支持我們拍攝更多教學影片
- 可在 YT 影片留言處或聊天室使用專屬貼圖
- 你的 YT 名稱前面會有專屬會員徽章
- 可觀看會員專屬影片 (張旭老師真實人生挑戰、許願池影片)
- 可加入張旭老師 YT 會員專屬 DC 群

碩士等級:300 元 / 月
- 享有博士等級所有福利
- 每個月可問 6 題高中或大學的數學問題 (沒問完可累積)

學士等級:750 元 / 月
- 享有博士等級所有福利
- 每個月可問 15 題高中或大學的數學問題 (沒問完可累積)
- 可許願希望我們拍攝講解的主題 (高中、大學數學)
- 可免費參加張旭老師線上考衝班 (名額不可轉讓)

家長會等級:1600 元 / 月
- 享有博士等級所有福利
- 沒有解題服務,如需要,得另外購入點數換取服務
- 可許願希望我們拍攝講解的主題 (高中、大學數學)
- 可免費參加張旭老師線上考衝班 (名額可轉讓)
- 可參與頻道經營方案討論
- 可免費獲得張旭老師實體產品
- 可以優惠價報名參加張旭老師所舉辦之活動

股東會等級:3200 元 / 月
- 享有家長會等級所有福利
- 一樣沒有解題服務,如需要,得另外購入點數換取服務
- 本頻道要募資時擁有優先入股權
- 可加入張旭老師商業結盟
- 可參加商業結盟餐會
- 繳滿六個月成為終生會員,之後可解除自動匯款
- 終生會員只需要餐會費用即可持續參加餐會

【勘誤】
無,有任何錯誤歡迎留言告知

【習題】


【講義】


【附註】
本系列影片僅限 YouTube 會員優先觀看
非會員僅開放「單數集」影片
若想看到所有許願池影片
請加入數學老師張旭 YouTube 會員
加入會員連結 👉 https://reurl.cc/Kj3x7m

【張旭的話】
你好,我是張旭老師
這是我為本頻道會員所專門拍攝的許願池影片
如果你喜歡我的教學影片
歡迎訂閱我的頻道🔔,按讚我的影片👍
並幫我分享給更多正在學大學數學的同學們,謝謝

【學習地圖】
EP01:向量微積分重點整理 (https://youtu.be/x9Z23o_Z5sQ)
EP02:泰勒展開式說明與應用 (https://youtu.be/SByv7fMtMTY)
EP03:級數審斂法統整與習題 (https://youtu.be/qXCdZF8CV7o)
EP04:積分技巧統整 (https://youtu.be/Ioxd9eh6ogE)
EP05:極座標統整與應用 (https://youtu.be/ksy3siNDzH0)
EP06:極限嚴格定義題型 + 讀書方法分享 (https://youtu.be/9ItI09GTtNQ)
EP07:常見的一階微分方程題型及解法 (https://youtu.be/I8CJhA6COjk)
EP08:重製中
EP09:反函數定理與隱函數定理 (https://youtu.be/9CPpcIVLz7c)
EP10:多變數求極值與 Lagrange 乘子法 (https://youtu.be/XsOmQOTzdSA)
EP11:Laplace 轉換 (https://youtu.be/GZRWgcY5i6Y)
EP12:Fourier 級數與 Fourier 轉換 (https://youtu.be/85q-2nInw7Y)
EP13:換變數定理與 Jacobian 行列式 (https://youtu.be/7z4ad1I0b7o)
EP14:Cayley-Hamilton 定理 & 極小多項式 (https://youtu.be/9c-lCLV4F0M)
EP15:極限、微分和積分次序交換的條件 (https://youtu.be/QRkGLK7Iw4c)
EP16:機率密度函數 (上) (https://youtu.be/PR1NSAOP_Z0)
EP17:機率密度函數 (下) 👈 目前在這裡

持續更新中...

【版權宣告】
本影片版權為張旭 (張舜為) 老師所有
嚴禁用於任何商業用途⛔
如果有學校老師在課堂使用我的影片的話
請透過以下聯絡方式通知我讓我知道,謝謝

【張旭老師其他頻道或社群平台】
FB:https://www.facebook.com/changhsu.math
IG:https://www.instagram.com/changhsu.math
Twitch:https://www.twitch.tv/changhsu_math
Bilibili:https://space.bilibili.com/521685904

【其他贊助管道】
歐付寶:https://payment.opay.tw/Broadcaster/Donate/E1FDE508D6051EA8425A8483ED27DB5F (台灣境內用這個)
綠界:https://p.ecpay.com.tw/B3A1E (台灣境外用這個)

#連續型機率分布 #機率密度函數 #pdf

混合型資料投影法及其於分群之應用

為了解決連續變數的問題,作者成玉琳 這樣論述:

資料分析常使用同時具有類別型變數和連續型變數的混合型資料。其中,僅有連續型變數具有可計算的「量」的概念,因此過去的分析方法以針對連續型變數為主要;類別型變數本身沒有「量」的概念,且與連續型變數的屬性不同,因此兩者常需要分別處理。由於混合型資料中的類別型與連續型變數間彼此可能有關聯,本硏究將兩種型態的變數一起投影至歐式空間。對類別變數使用線性判別分析(Linear Discriminant Analysis),對本身具有量化數值的連續變數則使用最小平方法 (Least Squares Method),找出代表每個變數的特徵向量;再以此向量,找出最適合的樣本投影位置。兩者不斷交互迭代,使樣本點投

影位置趨於穩定並收斂。這些投影位置盡可能的保留了原混合型資料的資訊,可用來量化混合型資料所描述特徵的樣本間關係。本研究使用模擬資料展現此投影方法的表現,並將其應用至實際資料的群聚分析。

機器學習算法競賽實戰

為了解決連續變數的問題,作者王賀劉鵬錢乾 這樣論述:

本書是算法競賽領域一本系統介紹競賽的圖書,書中不僅包含競賽的基本理論知識,還結合多個方向和案例詳細闡述了競賽中的上分思路和技巧。   全書分為五部分:第一部分以算法競賽的通用流程為主,介紹競賽中各個部分的核心內容和具體工作;第二部分介紹了使用者畫像相關的問題;第三部分以時間序列預測問題為主,先講述這類問題的常見解題思路和技巧,然後分析天池平臺的全球城市計算AI 挑戰賽和Kaggle平臺的Corporación Favorita Grocery Sales Forecasting;第四部分主要介紹計算廣告的核心技術和業務,包括廣告召回、廣告排序和廣告競價,其中兩個實戰案例是2018騰訊廣告算法大

賽——相似人群拓展和Kaggle平臺的TalkingData AdTracking Fraud Detection Challenge;第五部分基於自然語言處理相關的內容進行講解,其中實戰案例是Kaggle 平臺上的經典競賽Quora Question Pairs。 本書適合從事機器學習、數據挖掘和人工智能相關算法崗位的人閱讀。 王賀(魚遇雨欲語與餘) 畢業于武漢大學電腦學院,碩士學位,研究方向為圖資料採擷,現任職於小米商業演算法部,從事應用商店廣告推薦的研究和開發。是2019年和2020年騰訊廣告演算法大賽的冠軍,從2018年至2020年多次參加國內外演算法競賽,共獲得五

次冠軍和五次亞軍。 劉鵬 2016年本科畢業于武漢大學數學基地班,保研至中國科學技術大學自動化系,碩士期間研究方向為複雜網路與機器學習,2018年起多次獲得機器學習相關競賽獎項,2019年至今就職于華為技術有限公司,任演算法工程師。 錢乾 本科就讀於美國佐治亞理工大學,研究方向包括機器學習、深度學習、自然語言處理等,現就職于數程科技,工作方向為物流領域的智慧演算法應用,任大資料技術負責人。 第 1 章 初見競賽 1 1.1 競賽平臺 2 1.1.1 Kaggle 2 1.1.2 天池 6 1.1.3 DF 7 1.1.4 DC 7 1.1.5 Kesci 7 1.1.6 

JDATA 8 1.1.7 企業網站 8 1.2 競賽流程 8 1.2.1 問題建模 8 1.2.2 資料探索 9 1.2.3 特徵工程 9 1.2.4 模型訓練 9 1.2.5 模型融合 10 1.3 競賽類型 10 1.3.1 資料類型 10 1.3.2 任務類型 11 1.3.3 應用場景 11 1.4 思考練習 11 第 2 章 問題建模 12 2.1 賽題理解 12 2.1.1 業務背景 12 2.1.2 資料理解  14 2.1.3 評價指標 14 2.2 樣本選擇 20 2.2.1 主要原因 20 2.2.2 準確方法 22 2.2.3 應用場景 23 2.3 線下評估策略 2

4 2.3.1 強時序性問題 24 2.3.2 弱時序性問題 24 2.4 實戰案例 25 2.4.1 賽題理解 26 2.4.2 線下驗證 27 2.5 思考練習 28 第 3 章 資料探索 29 3.1 數據初探 29 3.1.1 分析思路 29 3.1.2 分析方法 30 3.1.3 明確目的 30 3.2 變數分析 32 3.2.1 單變數分析 33 3.2.2 多變數分析 37 3.3 模型分析 39 3.3.1 學習曲線 39 3.3.2 特徵重要性分析 40 3.3.3 誤差分析 41 3.4 思考練習 42 第 4 章 特徵工程 43 4.1 數據預處理 43 4.1.1 

缺失值處理 44 4.1.2 異常值處理 45 4.1.3 優化記憶體 46 4.2 特徵變換 47 4.2.1 連續變數無量綱化 47 4.2.2 連續變數資料變換 48 4.2.3 類別特徵轉換 50 4.2.4 不規則特徵變換 50 4.3 特徵提取 51 4.3.1 類別相關的統計特徵 51 4.3.2 數值相關的統計特徵 53 4.3.3 時間特徵 53 4.3.4 多值特徵 54 4.3.5 小結 55 4.4 特徵選擇 55 4.4.1 特徵關聯性分析 55 4.4.2 特徵重要性分析 57 4.4.3 封裝方法 57 4.4.4 小結 58 4.5 實戰案例 59 4.5.1 

數據預處理  59 4.5.2 特徵提取 60 4.5.3 特徵選擇 61 4.6 練習 62 第 5 章 模型選擇 63 5.1 線性模型 63 5.1.1 Lasso 回歸 63 5.1.2 Ridge 回歸 64 5.2 樹模型 64 5.2.1 隨機森林 65 5.2.2 梯度提升樹 66 5.2.3 XGBoost 67 5.2.4 LightGBM 68 5.2.5 CatBoost 69 5.2.6 模型深入對比 70 5.3 神經網路 73 5.3.1 多層感知機 74 5.3.2 卷積神經網路 75 5.3.3 迴圈神經網路 77 5.4 實戰案例 79 5.5 練習 80

第 6 章 模型融合 81 6.1 構建多樣性 81 6.1.1 特徵多樣性 81 6.1.2 樣本多樣性 82 6.1.3 模型多樣性 82 6.2 訓練過程融合 83 6.2.1 Bagging 83 6.2.2 Boosting 83 6.3 訓練結果融合 84 6.3.1 加權法 84 6.3.2 Stacking 融合 86 6.3.3 Blending 融合 87 6.4 實戰案例 88 6.5 練習 90 第 7 章 用戶畫像 91 7.1 什麼是用戶畫像 92 7.2 標籤系統 92 7.2.1 標籤分類方式 92 7.2.2 多管道獲取標籤 93 7.2.3 標籤體系框

架 94 7.3 使用者畫像資料特徵 95 7.3.1 常見的資料形式 95 7.3.2 文本挖掘演算法 97 7.3.3 神奇的嵌入表示 98 7.3.4 相似度計算方法 101 7.4 用戶畫像的應用  103 7.4.1 用戶分析  103 7.4.2 精准行銷 104 7.4.3 風控領域 105 7.5 思考練習 106 第 8 章 實戰案例:Elo Merchant Category Recommendation(Kaggle) 107 8.1 賽題理解 107 8.1.1 賽題背景 107 8.1.2 賽題數據 108 8.1.3 賽題任務 108 8.1.4 評價指標 109

8.1.5 賽題FAQ 109 8.2 探索性分析 109 8.2.1 欄位類別含義 110 8.2.2 欄位取值狀況 111 8.2.3 資料分佈差異 112 8.2.4 表格關聯關係 115 8.2.5 數據預處理 115 8.3 特徵工程 116 8.3.1 通用特徵 116 8.3.2 業務特徵 117 8.3.3 文本特徵 118 8.3.4 特徵選擇 119 8.4 模型訓練 119 8.4.1 隨機森林 119 8.4.2 LightGBM 121 8.4.3 XGBoost 124 8.5 模型融合 127 8.5.1 加權融合 127 8.5.2 Stacking 融合 1

27 8.6 高效提分 128 8.6.1 特徵優化 128 8.6.2 融合技巧 130 8.7 賽題總結 134 8.7.1 更多方案 134 8.7.2 知識點梳理 135 8.7.3 延伸學習 135 第 9 章 時間序列分析 138 9.1 介紹時間序列分析 138 9.1.1 簡單定義 138 9.1.2 常見問題 139 9.1.3 交叉驗證 140 9.1.4 基本規則方法 141 9.2 時間序列模式 142 9.2.1 趨勢性 142 9.2.2 週期性 143 9.2.3 相關性 144 9.2.4 隨機性 144 9.3 特徵提取方式 144 9.3.1 歷史平移 1

45 9.3.2 窗口統計 145 9.3.3 序列熵特徵 145 9.3.4 其他特徵 146 9.4 模型的多樣性 146 9.4.1 傳統的時序模型 147 9.4.2 樹模型 147 9.4.3 深度學習模型 148 9.5 練習 150 第 10 章 實戰案例:全球城市計算AI挑戰賽 151 10.1 賽題理解 151 10.1.1 背景介紹 152 10.1.2 賽題數據 152 10.1.3 評價指標 153 10.1.4 賽題FAQ 153 10.1.5 baseline 方案 153 10.2 探索性資料分析 157 10.2.1 數據初探 157 10.2.2 模式分析

159 10.3 特徵工程 162 10.3.1 數據預處理 162 10.3.2 強相關性特徵 163 10.3.3 趨勢性特徵 165 10.3.4 網站相關特徵 165 10.3.5 特徵強化 166 10.4 模型選擇 166 10.4.1 LightGBM 模型 167 10.4.2 時序模型 168 10.5 強化學習 170 10.5.1 時序stacking 170 10.5.2 Top 方案解析 171 10.5.3 相關賽題推薦  172 第 11 章 實戰案例-Corporación Favorita Grocery Sales Forecasting 174 11.1

 賽題理解 174 11.1.1 背景介紹 174 11.1.2 賽題數據 175 11.1.3 評價指標 175 11.1.4 賽題FAQ 176 11.1.5 baseline 方案 176 11.2 探索性資料分析 181 11.2.1 數據初探 181 11.2.2 單變數分析 184 11.2.3 多變數分析 188 11.3 特徵工程 190 11.3.1 歷史平移特徵 191 11.3.2 視窗統計特徵 192 11.3.3 構造細微性多樣性 193 11.3.4 高效特徵選擇 194 11.4 模型選擇 195 11.4.1 LightGBM 模型 196 11.4.2 LST

M 模型 196 11.4.3 Wavenet 模型 198 11.4.4 模型融合 199 11.5 賽題總結 200 11.5.1 更多方案 200 11.5.2 知識點梳理 201 11.5.2 延伸學習 202 第 12 章 計算廣告 204 12.1 什麼是計算廣告 204 12.1.1 主要問題 205 12.1.2 計算廣告系統架構 205 12.2 廣告類型 207 12.2.1 合約廣告 207 12.2.2 競價廣告 207 12.2.3 程式化交易廣告 208 12.3 廣告召回 208 12.3.1 廣告召回模組 208 12.3.2 DSSM 語義召回 210 12

.4 廣告排序 211 12.4.1 點擊率預估 211 12.4.2 特徵處理 212 12.4.3 常見模型 214 12.5 廣告競價 219 12.6 小結 221 12.7 思考練習 221 第 13 章 實戰案例:2018 騰訊廣告演算法大賽——相似人群拓展 222 13.1 賽題理解 222 13.1.1 賽題背景 223 13.1.2 賽題數據 224 13.1.3 賽題任務 226 13.1.4 評價指標 226 13.1.5 賽題FAQ 227 13.2 探索性資料分析 227 13.2.1 競賽的公開資料集 227 13.2.2 訓練集與測試集 227 13.2.3 廣

告屬性 229 13.2.4 使用者資訊 229 13.2.5 資料集特徵拼接 230 13.2.6 基本建模思路 232 13.3 特徵工程 232 13.3.1 經典特徵 232 13.3.2 業務特徵 234 13.3.3 文本特徵 235 13.3.4 特徵降維 237 13.3.5 特徵存儲 238 13.4 模型訓練 238 13.4.1 LightGBM 238 13.4.2 CatBoost  238 13.4.3 XGBoost 239 13.5 模型融合 239 13.5.1 加權融合 239 13.5.2 Stacking 融合 239 13.6 賽題總結 240 13.

6.1 更多方案 240 13.6.2 知識點梳理 241 13.6.3 延伸學習 241 第 14 章 實戰案例-TalkingData AdTracking Fraud DetectionChallenge 243 14.1 賽題理解 243 14.1.1 背景介紹 243 14.1.2 賽題數據 244 14.1.3 評價指標 244 14.1.4 賽題FAQ 244 14.1.5 baseline 方案 245 14.2 探索性資料分析 247 14.2.1 數據初探 247 14.2.2 單變數分析 249 14.2.3 多變數分析 254 14.2.4 資料分佈 255 14.3

 特徵工程 256 14.3.1 統計特徵 256 14.3.2 時間差特徵 257 14.3.3 排序特徵 258 14.3.4 目標編碼特徵 258 14.4 模型選擇 259 14.4.1 LR 模型 259 14.4.2 CatBoost 模型 259 14.4.3 LightGBM 模型 260 14.4.4 DeepFM 模型 261 14.5 賽題總結 264 14.5.1 更多方案 264 14.5.2 知識點梳理 265 14.5.3 延伸學習 266 第 15 章 自然語言處理 268 15.1 自然語言處理的發展歷程 268 15.2 自然語言處理的常見場景 269 1

5.2.1 分類、回歸任務 269 15.2.2 資訊檢索、文本匹配等任務 269 15.2.3 序列對序列、序列標注 269 15.2.4 機器閱讀 270 15.3 自然語言處理的常見技術 270 15.3.1 基於詞袋模型、TF-IDF.的特徵提取 270 15.3.2 N-Gram 模型 271 15.3.3 詞嵌入模型 271 15.3.5 上下文相關預訓練模型 272 15.3.6 常用的深度學習模型結構 274 15.4 練習 276 第 16 章 實戰案例:Quora QuestionPairs 277 16.1 賽題理解 277 16.1.1 賽題背景 277 16.1.2

 賽題數據 278 16.1.3 賽題任務 278 16.1.4 評價指標 278 16.1.5 賽題FAQ 278 16.2 探索性資料分析 279 16.2.1 欄位類別含義 279 16.2.2 資料集基本量 279 16.2.3 文本的分佈 280 16.2.4 詞的數量與詞雲分析 282 16.2.5 基於傳統手段的文本資料預處理 284 16.2.6 基於深度學習模型的文本資料預處理 284 16.3 特徵工程 285 16.3.1 通用文本特徵 285 16.3.2 相似度特徵 287 16.3.3 詞向量的進一步應用——獨有詞匹配 290 16.3.4 詞向量的進一步應用——詞

與詞的兩兩匹配 290 16.3.5 其他相似度計算方式 291 16.4 機器學習模型和模型的訓練 291 16.4.1 TextCNN 模型 291 16.4.2 TextLSTM 模型 292 16.4.3 TextLSTM with Attention 模型 293 16.4.4 Self-Attention 層 295 16.4.5 Transformer 和BERT 類模型 296 16.4.6 基於 representation 和基於 interaction 的深度學習模型的差異 298 16.4.7 一種特殊的基於 interaction 的深度學習模型 303 16.4.8

 深度學習文本資料的翻譯增強 303 16.4.9 深度學習文本資料的預處理 304 16.4.10 BERT 模型的訓練 306 16.5 模型融合 310 16.6 賽題總結 310 16.6.1 更多方案 310 16.6.2 知識點梳理 310 16.6.3 延伸學習 311

不平衡信用風險違約資料的處理方法比較

為了解決連續變數的問題,作者丁竹松 這樣論述:

在信用風險的領域中,如何處理不平衡資料,一直是一個比較嚴重的問題,自 2008 年經濟危機以來,對於銀行而言,如何提前甄別不同類別的客戶是否違約,違約的概率有多大,違約的程度有多嚴重,這些也是極為重要的議題,也因此這是我選擇這一問題的原因。而在通常的課本教學中並不會利用到 SMOTE (Synthesized Minority Oversampling Technique)演算法,故本研究利用和鯨官網比賽資料構建一個以集成學習(Ensemble Learning)為框架,不同方法進行比較,通過預測客戶資料的未來違約的可能性的結果,比較不同方法以此展現其效果的優劣。在評價模型的成效方面,本研究

使用準確率(Accuracy)與 AUC 代表在 ROC曲線下的面積(Area Under Curve),通過參數輸入的不同以及研究不同方法來表現模型具體效果。本文有助於説明他人更好的瞭解 SMOTE 演算法,為未來做鋪墊。通過不同方法可以展現其對於不平衡資料的效果,讓他人更好的感受 XGboost(eXtreme Gradient Boosting)的全面性與成效。