cpu gpu瓶頸計算的問題,透過圖書和論文來找解法和答案更準確安心。 我們找到下列懶人包和總整理

cpu gpu瓶頸計算的問題,我們搜遍了碩博士論文和台灣出版的書籍,推薦劉峻誠,羅明健 寫的 深度學習:硬體設計 和王眾磊的 TensorFlow移動端機器學習實戰都 可以從中找到所需的評價。

這兩本書分別來自全華圖書 和電子工業所出版 。

國立陽明交通大學 電子研究所 賴伯承所指導 劉沛宜的 分散式FM-index基因搜尋於基於RISC-V的近DRAM處理之設計研究 (2021),提出cpu gpu瓶頸計算關鍵因素是什麼,來自於基因搜尋、分散式FM-index、DRAM記憶體、近DRAM處理、RISC-V。

而第二篇論文國立臺北科技大學 電機工程系 張陽郎、譚旦旭所指導 楊斯宇的 應用圖形處理器之平行與最佳化技術加速淺水波方程式 (2020),提出因為有 GPU加速、CUDA、淹水、模擬的重點而找出了 cpu gpu瓶頸計算的解答。

接下來讓我們看這些論文和書籍都說些什麼吧:

除了cpu gpu瓶頸計算,大家也想知道這些:

深度學習:硬體設計

為了解決cpu gpu瓶頸計算的問題,作者劉峻誠,羅明健  這樣論述:

  深度學習成功解決許多電腦上的難題,並廣泛應用於日常生活中,例如:金融、零售和醫療保健等。本書從中央處理器(CPU)、圖形處理器(GPU)和神經網路處理器(NPU),到各種深度學習硬體設計,並列出解決問題的不同方式。     從這些設計中,可以發展出嶄新硬體設計,進一步改善整體效能和功耗,而本書有說明新的硬體設計,即流圖理論和三維神經處理,並提出智能機器人項目,以耐能終端智慧加速器(Kneron Edge AI)提升深度學習成效,其具有低成本的優勢,並以較低的功耗,實現較佳的性能。     本書適用於大學、科大資工、電子、電機、自控系「深度學習」課程及對本書有興趣的人士使用。   本書特

色     1. 本書針對目前深度學習在解決算力瓶頸的架構,獨家收錄包括各家IC設計與個別實驗室的設計。   2. 針對不同的架構有深入淺出的說明,並輔助使用大量的圖示,以資料流的路徑觀點,說明設計的優缺點。   3. 本書專題包含有趣的自駕車與無人機。   4. 本書獨家與耐能智慧科技合作,使用耐能智慧科技的AI Dongle,並代以實際的例子做說明,利用實作專題的方式,讓本書的讀者可以認知AI EDGE晶片設計架構所帶來的好處。   5. 本書在每個章節提供反思的練習題,幫助讀者能正確的理解。

分散式FM-index基因搜尋於基於RISC-V的近DRAM處理之設計研究

為了解決cpu gpu瓶頸計算的問題,作者劉沛宜 這樣論述:

FM-index是一個能很有效精準比對基因序列的資料結構,並且被廣用在各種基因分析的應用上。FM-index資料結構應用在基因分析上很節省空間並且有很低的計算複雜度。然而,因為其資料存取的隨機性和密集度,再加上現今電腦架構CPU和記憶體的速度差距,使得FM-index比對基因序列的計算主要卡在記憶體的存取。近DRAM處理(NDP)是解決記憶體存取瓶頸的趨勢。我們在這篇研究提出兩種分散式FM-index基因搜尋,包含完整的資料劃分、計算分散和中央管理方法,以將計算分散到整個平行計算NDP架構上。另外,在我們NDP架構中,我們使用多個RISC-V 運算核心搭配coprocessors作為處理單元

以提供切換計算和參數的彈性和針對FM-index重複的運算加速。與直接在CPU上用軟體計算相比,我們提出的兩種FM-index基因搜尋分散方法在我們的平行NDP系統上分別達到了2.66倍和6.39倍的加速。此外,我們有完整的比較了兩種分散式方法的效能表現不同以及各自最佳的使用場景,也呈現兩種不同硬體複雜度coprocessor設計的速度表現和影響。

TensorFlow移動端機器學習實戰

為了解決cpu gpu瓶頸計算的問題,作者王眾磊 這樣論述:

TensorFlow已經成為機器學習的流行框架和工業屆標準,早期的TensorFlow以雲端和資料中心中的機器學習為主,近期的一個趨勢是,逐漸向移動端和設備端轉移。推動這個趨勢的動力包括人們對機器學習理論和認知的提高、演算法及技術的改進、軟體和硬體性能的提高,以及專有硬體的出現等,更主要的是,用戶的需求和越來越豐富的場景需求。現在國內移動用戶已超15億,全球移動用戶已超過51億,2019年IoT裝置數量預計將超過全球人口總數。 我們相信,在未來,雲端和移動端相結合的人工智慧和設備端獨立的人工智慧應用會慢慢成為主流。作為TensorFlow的開發者和使用者,本書作者完整地講解了使用Tensor

Flow進行端到端開發的實例和開發技巧,同時分享了如何使用開源工具進行軟體發展的最佳工程實踐和經驗。本書提供了全方位的視角説明讀者開啟不同的思路,即使把本書作為一本軟體發展和工程開發的書籍來讀,也會使讀者受益匪淺。   王眾磊 TensorFlow的開發者之一,具有二十多年的留學和工作經驗。現定居美國矽谷,長期從事軟體發展工作,發表國際論文及國際專利多項。曾在穀歌等多家大型國際公司及初創企業工作過,有豐富的國內、國際開發及管理經驗。近幾年以移動端開發、邊緣計算、雲計算和機器學習為主,從事開發和管理工作。工作之余喜歡和家人一起去各地旅遊、打高爾夫球、滑雪等。 陳海波 深

蘭科技DeepBlue Technology的創始人,南京工業大學特聘教授,清華大學―深蘭科技機器視覺聯合研究中心管理委員會主任;上海交通大學―深蘭科技人工智慧聯合實驗室管理委員會主任、中南大學―深蘭科技人工智慧聯合研究院專家委員會委員,致力於人工智慧的基礎研究和應用開發,創建的深蘭科學院擁有人工智慧研究院、科學計算研究院、生命及AI腦科學院、自動化研究院和智慧汽車研究院。團隊擁有包括CVPR、PAKDD、IEEEISI等多項國際競賽冠軍成績,在自動駕駛和整車、機器人研發及製造、生物科技、自然語言處理(語義智慧)、資料採擷等領域都有深度佈局。   第1章 機器學習和Tens

orFlow簡述 1 1.1 機器學習和TensorFlow的歷史及發展現狀 1 1.1.1 人工智慧和機器學習 1 1.1.2 TensorFlow 3 1.1.3 TensorFlow Mobile 5 1.1.4 TensorFlow Lite 5 1.2 在移動設備上運行機器學習的應用 6 1.2.1 生態和現狀 7 1.2.2 從移動優先到人工智慧優先 8 1.2.3 人工智慧的發展 9 1.2.4 在移動設備上進行機器學習的難點和挑戰 9 1.2.5 TPU 10 1.3 機器學習框架 11 1.3.1 CAFFE2 11 1.3.2 Android NNAPI 12 1.3.3

CoreML 12 1.3.4 樹莓派(Raspberry Pi) 13 第2章 構建開發環境 14 2.1 開發主機和設備的選擇 14 2.2 在網路代理環境下開發 15 2.3 整合式開發環境IDE 16 2.3.1 Android Studio 16 2.3.2 Visual Studio Code 16 2.3.3 其他IDE 18 2.4 構建工具Bazel 18 2.4.1 Bazel生成調試 19 2.4.2 Bazel Query命令 20 2.5 裝載TensorFlow 20 2.6 文檔 25 第3章 基於移動端的機器學習的開發方式和流程 26 3.1 開發方式和流程

簡介 26 3.2 使用TPU進行訓練 28 3.3 設備端進行機器學習訓練 35 3.4 使用TensorFlow Serving優化TensorFlow模型 41 3.4.1 訓練和匯出TensorFlow模型 42 3.4.2 使用標準TensorFlow ModelServer載入匯出的模型 50 3.4.3 測試伺服器 50 3.5 TensorFlow擴展(Extended) 54 第4章 構建TensorFlow Mobile 55 4.1 TensorFlow Mobile的歷史 55 4.2 TensorFlow代碼結構 55 4.3 構建及運行 61 4.3.1 代碼的流

程 67 4.3.2 代碼的依賴性 68 4.3.3 性能和代碼跟蹤 69 第5章 用TensorFlow Mobile構建機器學習應用 71 5.1 準備工作 71 5.2 圖像分類(Image Classification) 74 5.2.1 應用 74 5.2.2 模型 85 5.3 物體檢測(Object Detection) 87 5.3.1 應用 87 5.3.2 模型 92 5.4 時尚渲染(Stylization) 95 5.4.1 應用 95 5.4.2 模型 96 5.5 聲音識別(Speech Recognization) 96 5.5.1 應用 96 5.5.2 模型

99 第6章 TensorFlow Lite的架構 101 6.1 模型格式 102 6.1.1 Protocol Buffer 102 6.1.2 FlatBuffers 105 6.1.3 模型結構 112 6.1.4 轉換器(Toco) 113 6.1.5 解析器(Interpreter) 119 6.2 底層結構和設計 123 6.2.1 設計目標 123 6.2.2 錯誤回饋 124 6.2.3 裝載模型 125 6.2.4 運行模型 126 6.2.5 定制演算子(CUSTOM Ops) 128 6.2.6 定制內核 132 6.3 工具 133 6.3.1 圖像標注(labe

l_image) 133 6.3.2 最小集成(Minimal) 143 6.3.3 Graphviz 143 6.3.4 模型評效 148 第7章 用TensorFlow Lite構建機器學習應用 151 7.1 模型設計 151 7.1.1 使用預先訓練的模型 151 7.1.2 重新訓練 152 7.1.3 使用瓶頸(Bottleneck) 154 7.2 開發應用 158 7.2.1 程式介面 158 7.2.2 執行緒和性能 162 7.2.3 模型優化 163 7.3 TensorFlow Lite的應用 170 7.3.1 聲音識別 173 7.3.2 圖像識別 177 7.4

TensorFlow Lite使用GPU 178 7.4.1 GPU與CPU性能比較 178 7.4.2 開發GPU代理(Delegate) 178 7.5 訓練模型 182 7.5.1 模擬器 183 7.5.2 構建執行檔 183 第8章 移動端的機器學習開發 186 8.1 其他設備的支援 186 8.1.1 在iOS上運行TensorFlow的應用 186 8.1.2 在樹莓派上運行TensorFlow 189 8.2 設計和優化模型 190 8.2.1 模型大小 191 8.2.2 運行速度 192 8.2.3 視覺化模型 196 8.2.4 執行緒 196 8.2.5 二進位檔

案大小 197 8.2.6 重新訓練移動資料 197 8.2.7 優化模型載入 198 8.2.8 保護模型檔 198 8.2.9 量化計算 199 8.2.10 使用量化計算 202 8.3 設計機器學習應用程式要點 207 第9章 TensorFlow的硬體加速 209 9.1 神經網路介面 209 9.1.1 瞭解Neural Networks API運行時 210 9.1.2 Neural Networks API程式設計模型 211 9.1.3 NNAPI 實現的實例 213 9.2 硬體加速 222 9.2.1 高通網路處理器 223 9.2.2 華為HiAI Engine 22

9 9.2.3 簡要比較 235 9.2.4 開放式神經網路交換格式 236 第10章 機器學習應用框架 237 10.1 ML Kit 237 10.1.1 面部識別(Face Detection) 242 10.1.2 文本識別 247 10.1.3 條碼識別 248 10.2 聯合學習(Federated Learning) 248 第11章 基於移動設備的機器學習的未來 252 11.1 TensorFlow 2.0和路線圖 252 11.1.1 更簡單的開發模型 253 11.1.2 更可靠的跨平臺的模型發佈 254 11.1.3 TensorFlow Lite 254 11.1

.4 TensorFlow 1.0 和TensorFlow 2.0的不同 255 11.2 人工智慧的發展方向 255 11.2.1 提高人工智慧的可解釋性 255 11.2.2 貢獻社會 256 11.2.3 改善社會 258   2018年,我有很長一段時間在中國和美國兩地跑,同時在國內工作和生活了比較長的一段時間,這是我近二十年來第一次和國內的開發者一起長時間工作。在享受各種美食之外,對國內的開發、產品和管理有了全新的瞭解和認識。 說起寫書的起源,我本來的想法只是寫一點可以作為國內工程師培訓教材的東西。2018年初,TensorFlow作為一個技術熱點,逐漸普及到機

器學習應用開發的各個方面,但是對於TensorFlow在移動端的開發和應用還處於初始階段。我當時也剛剛結束一個TensorFlow項目,想把這些經驗和想法沉澱一下。於是我就把以前寫的筆記和日誌重新整理,添加一些內容並修改了文字,基本形成了一個原始版本。 後來,遇到博文視點的南海寶編輯,通過商談,出版社欣然同意把這些資料整理出書。我的筆記和日誌的內容很多和代碼緊密相關,其中很多內容後來演變成了文檔,我覺得這對初學者和有經驗的開發者都是一個很好的參考,至少可以提供另外一個視角,讓開發者多方面瞭解TensorFlow。所以,我就開始寫作,前後花費了近兩年的時間。 我是一邊寫作一邊工作的,在這個過

程中很快就遇到了兩個很大的挑戰。 第一是文字。我的筆記都是英文的,要把這些轉換成中文,我借助了谷歌翻譯,雖然翻譯後的文字有很多需要修改,但至少省下了不少打字的時間。另外,就是專有術語的翻譯,由於我對中文的專業術語不熟悉,所以即使簡單的術語也要斟酌確定,這也花費了一些時間。如果讀者在文字中發現一些奇怪的說法,還請見諒,我和編輯雖然盡了最大的努力,可能還是會有很多遺漏。 第二是重新認識和瞭解了國內開發的方方面面。我在美國和國內的開發者也有不少接觸,我想在兩邊工作應該不會有什麼差別,可實際工作起來還是有很多不同和挑戰,感觸頗深。首先是技術層面。開源的理念和軟體在國內滲透到各個方面,幾乎所有互聯網

公司都是從使用開源軟體開始搭建自己的產品。由於穀歌在開源社區的貢獻和影響力,國內普遍對穀歌的好感度很高,我也同享了這個榮耀。而且,很多公司和開發者也把對開源社區做出貢獻看作責任和榮耀,這是一個很好的趨勢,中國很快會發展出自己的開源生態和社區。 關於開發環境和工程師文化,我想提一下兩邊對新員工培訓的區別。在國內對員工的培訓中,職業道德培訓和公司文化的培訓占了很大一部分。而在矽谷,至少像穀歌、臉書這些公司,培訓中技術培訓占了很大一部分,基本是一周的培訓後,員工就要進行實際的工作,而國內很多公司的新員工第二周才開始技術工作。這裡我能充分感受到中美公司之間的差別。 另外是開發管理方法,由於管理方法

的不同,實際的工作中要做相應的改變。比如國內對開發和產品的進度的管理是非常嚴格的。但是,這種嚴格大都體現在層級的彙報關係上,而不是對技術細節的掌控和指導上。谷歌的工程師會經常以代碼的提交作為一個工程開始和結束的標誌,這在國內公司很少見到。 我希望把這些經驗、想法和體會能或多或少體現在這本書裡。比如,使用Markdown寫文檔,能使寫文檔變成一件不是很煩瑣的事,可以讓作者更專注于內容的寫作,而不是花費太多時間在操作編輯器上。本書就是全部用Markdown寫作完成,再轉換成Word文檔的。比如,使用Bazel編譯,需要對代碼的依賴有清晰的定義。可能很多工程師不會特別在意這點,但是通過它,工程師可

以非常清楚地瞭解代碼重用和引用的狀況,避免隨意的代碼重用,並提高代碼的品質。我希望通過這些在書中給讀者傳達一些不同的開發經驗。 總之,我會把這本書作為2018年工作和生活的一個紀念。看到書中的各個章節,我就可以聯想起寫書時發生的許多人和事。但是,真的由於時間和我自己的能力非常有限,書中一定會有很多錯誤和瑕疵,還望讀者能寬容和諒解。 最後,要感謝我的家人能支持和陪伴我度過2018年,我和我的母親一起度過了2018年春節,是近20年來在國內度過的第一個春節。還要感謝我的妻子,她非常支持我,並幫助我寫完這本書。還有我的兩個女兒,總是能給我帶來無盡的快樂,還要感謝深蘭科技的創始人陳海波先生和首席戰

略官王博士,兩位幫助我完成這本書,並提出了很多意見。 另外,感謝博文視點給我這個機會出版這本書,希望通過這本書能結識更多的開發者。還要感謝南海寶編輯在本書寫作和出版過程中給予的指導和鼓勵。  

應用圖形處理器之平行與最佳化技術加速淺水波方程式

為了解決cpu gpu瓶頸計算的問題,作者楊斯宇 這樣論述:

本論文旨在研究將二維地表水分析軟體以GPU平行計算方式加速,提高整體運算效率。近幾年以來,隨著全球氣候迅速變遷以及極端氣候的加劇,全球都面臨著極端氣候所帶來的局部暴雨,其造成的災害使得許多地區遭受鉅額的損失,因此迅速且即時的淹水模擬計算,對於保障人民的安全以及財產來說,可以當來相當大的助益。物理模擬必須要連帶考慮相當數量的物理參數作為模擬條件,伴隨而來的是相當龐大的計算量,目前傳統上是使用CPU計算模擬水理,但由於近年隨著需求的增長,水理模擬的速度與即時性上,面臨著重大的挑戰,又因為近年來CPU的進步趨於緩慢,相對於急遽增長的計算需求來說,繼續使用CPU做序列計算,已經逐漸顯得捉襟見肘。因此

本研究嘗試利用GPU透過NVIDIA所推出的整合技術,計算統一架構(Compute Unified Device Architecture, CUDA)透過分析原程式邏輯架構後,進行相應的平行邏輯改寫,以及研究包含資料傳輸、資料縮減、啟動開銷與記憶體存取...等最佳化策略的實施所能取得的效益,以克服原先所使用CPU做序列計算,處理水理模擬問題所帶來的計算速度瓶頸,期望達到更高的執行速度以滿足目前的需求。在本研究當中最後的實驗結果可以觀察到,與非平行化的版本相比之下,完成深度的平行化與最佳化後,最終可以獲得最高將近21倍的加速,顯示出使用GPU進行平行處理的水理模擬,確實對於地表水分析的計算效率

來說有顯著提升。