极品馒头泬19p,国产精品亚洲一区二区三区,狠狠色噜噜狠狠狠7777奇米,国产精品视频一区二区三区无码,国产欧美日韩久久久久

【E448】基于HLS的高效深度卷積神經(jīng)網(wǎng)絡(luò)FPGA實(shí)現(xiàn)方法

2021-08-22 18:24:57      索煒達(dá)電子      1275     

項(xiàng)目編號(hào):E448

文件大?。?92M

源碼說(shuō)明:帶中文注釋

開(kāi)發(fā)環(huán)境:Verilog

簡(jiǎn)要概述:

DCNN(Deep Convolution Neural Network)是深度學(xué)習(xí)中的一項(xiàng)關(guān)鍵技術(shù),已經(jīng)被廣泛應(yīng)用于目標(biāo)檢測(cè)、圖像分類(lèi)及語(yǔ)音識(shí)別等智能處理領(lǐng)域。隨著需求的不斷發(fā)展,需要設(shè)計(jì)具有小尺寸、低功耗、快速度、高精度的實(shí)時(shí)處理系統(tǒng),然而DCNN由于層數(shù)深,參數(shù)多,導(dǎo)致計(jì)算量和數(shù)據(jù)量很大,難以滿(mǎn)足應(yīng)用需求,必須研究并設(shè)計(jì)具有更低復(fù)雜度的網(wǎng)絡(luò)結(jié)構(gòu)及其高效并行架構(gòu)。FPGA(Field Programmable Gate Arrays)相比運(yùn)行串行指令流的CPU(Central Processing Unit)可以實(shí)現(xiàn)并行操作,且有著比GPU(Graphics Processing Unit)更高的性能功耗比,是目前解決DCNN實(shí)時(shí)處理的主流平臺(tái)。但傳統(tǒng)基于RTL(Register Transfer Level)的FPGA應(yīng)用開(kāi)發(fā)方式靈活性、可移植性和可擴(kuò)展性低,極大影響了開(kāi)發(fā)效率。HLS(High Level Synthesis)可以將高級(jí)抽象語(yǔ)言如C、C++和System C自動(dòng)轉(zhuǎn)化為硬件描述語(yǔ)言(HDL:Hardware Description Language)VHDL/Verilog,為FPGA高效設(shè)計(jì)提供了新的思路和工具。


本文通過(guò)對(duì)現(xiàn)有相關(guān)研究的分析、總結(jié)和改進(jìn),給出了一系列在軟件層面上如何構(gòu)建和訓(xùn)練小巧高效且利于硬件加速的網(wǎng)絡(luò)方法,在FPGA實(shí)現(xiàn)時(shí)如何減少資源、降低功耗及提高速度的方法,以及在HLS中如何增加設(shè)計(jì)靈活性、可移植性和可擴(kuò)展性的方法,具有很好的實(shí)用價(jià)值。并結(jié)合這些方法構(gòu)建和訓(xùn)練了一個(gè)網(wǎng)絡(luò),命名為EfficientNet,使用HLS在FPGA上對(duì)其進(jìn)行了推斷加速。通過(guò)與其他網(wǎng)絡(luò)和平臺(tái)的對(duì)比,驗(yàn)證了這些方法的有效性。本文的主要工作和貢獻(xiàn)如下:


設(shè)計(jì)實(shí)現(xiàn)了一種輕量化的深度學(xué)習(xí)網(wǎng)絡(luò)EfficientNet。針對(duì)傳統(tǒng)網(wǎng)絡(luò)參數(shù)量及計(jì)算量大且不利于硬件加速的問(wèn)題,本文在保證精度的前提下,分析了以深度可分離卷積代替標(biāo)準(zhǔn)卷積、以步進(jìn)代替池化、以平均池化代替全連接的方法,提出了尺寸不變通道增減交替的方法,并對(duì)這些方法進(jìn)行了集成,從而構(gòu)建了一個(gè)低復(fù)雜度的DCNN網(wǎng)絡(luò),并命名為EfficientNet。實(shí)驗(yàn)結(jié)果表明EfficientNet在公開(kāi)的Flower_photos數(shù)據(jù)集上的分類(lèi)精度為89.3%,相比Inception-v3,在參數(shù)量和計(jì)算量減少至約五、六十分之一的情況下,精度損失僅有5.7%。


在FPGA上設(shè)計(jì)實(shí)現(xiàn)了EfficientNet的推斷加速系統(tǒng)。圍繞減少資源、降低功耗和提高速度這些方面,本文引入了分塊機(jī)制,選擇和設(shè)計(jì)了適用于本文的數(shù)據(jù)重利用方式,采用了流式輸入卷積電路,提出了深度流水并行架構(gòu),并結(jié)合這些方法對(duì)本文設(shè)計(jì)的網(wǎng)絡(luò)EfficientNet在FPGA(ZCU102開(kāi)發(fā)板@244Mhz)上進(jìn)行了推斷加速。實(shí)驗(yàn)表明EfficientNet FPGA推斷加速系統(tǒng)僅占用了ZCU102開(kāi)發(fā)板上不到一半的資源,處理速度可達(dá) @36fps,達(dá)到了實(shí)時(shí)處理的要求,比CPU(E5645 @2.40GHz*2 六核)快約66倍、比GPU(Tesla K80)快近2倍,同時(shí)功耗相比GPU低近2倍。


編寫(xiě)了DCNN函數(shù)模板庫(kù)并提出了一種設(shè)計(jì)空間探索模型Design Space Exploration。為解決傳統(tǒng)FPGA設(shè)計(jì)靈活性、可重用性和可擴(kuò)展性低的問(wèn)題,本文充分利用了HLS基于C開(kāi)發(fā)的優(yōu)勢(shì),使用C++的模板功能編寫(xiě)了DCNN所需的部分函數(shù)并匯集成庫(kù),參數(shù)化了各配置信息,規(guī)范了輸入輸出接口,以及提出了一種設(shè)計(jì)空間探索模型Design Space Exploration。使得后續(xù)研究人員可以很方便地對(duì)該HLS庫(kù)修改和擴(kuò)充,并且不用局限于本文所設(shè)計(jì)的EfficientNet架構(gòu),可以根據(jù)自身需求按本文給出的評(píng)估方式去調(diào)用本文編寫(xiě)的函數(shù)庫(kù)并設(shè)置參數(shù),來(lái)實(shí)現(xiàn)適用于自己的網(wǎng)絡(luò)。


關(guān) 鍵 詞:DCNN, FPGA, HLS, 快速度, 低功耗, 高精度,小尺寸


文件列表:

【E448】基于HLS的高效深度卷積神經(jīng)網(wǎng)絡(luò)FPGA實(shí)現(xiàn)方法

TAG卷積神經(jīng)網(wǎng)絡(luò)
  • 29 次
  • 1 分