在生活中,很多人都不知道enet網(wǎng)絡(luò)學(xué)院_enet硅谷動(dòng)力學(xué)院是什么意思,其實(shí)他的意思是非常簡(jiǎn)單的,下面就是小編搜索到的enet網(wǎng)絡(luò)學(xué)院_enet硅谷動(dòng)力學(xué)院相關(guān)的一些知識(shí),我們一起來學(xué)習(xí)下吧!
(資料圖片)
Enet *** 學(xué)院(enet硅谷動(dòng)力學(xué)院)雷鋒網(wǎng)2019-02-26 10:14:15
本文是為AI研究所整理的技術(shù)博客,原題:
ENet——一種用于實(shí)時(shí)語義分割的深度神經(jīng)架構(gòu)
作者|阿魯納瓦
翻譯| callofduty890
校對(duì)|范姜梨評(píng)|皮塔整理|鯉魚網(wǎng)
原始鏈接:
https://towardsdatascience . com/enet-a-deep-neural-architecture-for-real-time-semantic-segmentation-2 baa 59 cf 97 e 9
圖一。一個(gè)語義分段的家伙和一個(gè)卡通之間的對(duì)話
這是論文的摘要:
ENet:用于實(shí)時(shí)語義分割的深度神經(jīng) *** 架構(gòu)
作者亞當(dāng)·帕茲克
論文:https://arxiv.org/abs/1606.02147
介紹
ENet(高效神經(jīng) *** )提供了實(shí)時(shí)按像素進(jìn)行語義分割的能力。ENet的速度提高了18倍,F(xiàn)LOP要求降低了75倍,參數(shù)降低了79倍,并為現(xiàn)有模型提供了類似或更好的精度。在CamVid、CityScapes和SUN數(shù)據(jù)集上進(jìn)行了測(cè)試。
方法:
圖3。ENet架構(gòu)
以上是完整的 *** 架構(gòu)。
它分為幾個(gè)階段,由表中的水平線和每個(gè)塊名稱后的之一個(gè)數(shù)字突出顯示。輸出尺寸為輸入圖像分辨率的512 * 512。
圖4。ENET的每個(gè)模塊都有詳細(xì)的解釋。
視覺表現(xiàn):
-初始模塊是(a)中所示的模塊-瓶頸模塊顯示在(b)中
每個(gè)瓶頸模塊包括:
-1x1投影,減少尺寸。
-主卷積層(conv)(-常規(guī)、擴(kuò)展或完整)(3x3)
-1x1擴(kuò)展
并且它們?cè)谒芯矸e層之間放置批標(biāo)準(zhǔn)化和預(yù)露。
如果瓶頸模塊正在縮減采樣,則將更大池層添加到主分支。此外,之一個(gè)1x1投影被替換為2x2卷積,跨距= 2。
他們將激活無填充以匹配要素地圖的數(shù)量。
Conv有時(shí)是非對(duì)稱卷積,即5 * 1和1 * 5卷積的序列。
對(duì)于正則項(xiàng),他們使用空間落差:
瓶頸2.0之前,p = 0.01
-完成后p = 0.1
所以,
階段1,2,3-編碼器-由5個(gè)瓶頸模塊組成(除了階段3沒有下采樣)。
階段4,5-解碼器-階段4包含三個(gè)瓶頸,階段5包含兩個(gè)瓶頸模塊。
接下來是一個(gè)fullconv,它輸出最終輸出-C * 512 * 512大小,其中C是濾波器的數(shù)量。
有一些事實(shí):
-他們?cè)谌魏晤A(yù)測(cè)中都沒有使用偏見術(shù)語
-在每個(gè)卷積層和激活層之間,它們使用批量歸一化
-在解碼器中,MaxPooling被MaxUnpooling代替。
-在解碼器中,填充被無偏差的空間卷積代替。
-在最后一個(gè)(5.0)上采樣模塊中沒有使用池索引。
- *** 的最后一個(gè)模塊是裸完全卷積,占用了解碼器的大部分處理時(shí)間。
-每個(gè)側(cè)支丟失一個(gè)空,之一級(jí)p = 0.01,然后是后級(jí)p = 0.1。
結(jié)果
通過benchmark測(cè)試了ENet的性能。
-CamVid(道路場(chǎng)景)
-城市景觀(道路場(chǎng)景)
-太陽RGB-D(室內(nèi)場(chǎng)景)
SegNet [2]被用作基線,因?yàn)樗亲羁斓姆侄文P椭?。使用cuDNN后端使用Torch7庫。
使用英偉達(dá)Titan X GPU和英偉達(dá)TX1嵌入式系統(tǒng)模塊記錄推理速度。輸入圖像大小為640x360,速度超過10fps。
圖5。以SegNet為基線的兩種不同GPU推理時(shí)間的比較
圖6。Segnet和ENet的硬件要求
基準(zhǔn)
亞當(dāng)。ENet用于快速融合。每個(gè)數(shù)據(jù)集上使用4個(gè)Titan X GPU,訓(xùn)練只需要3-6個(gè)小時(shí)。
它分兩個(gè)階段進(jìn)行:
-首先,他們訓(xùn)練編碼器對(duì)輸入圖像的下采樣區(qū)域進(jìn)行分類。
然后附加一個(gè)解碼器,訓(xùn)練 *** 進(jìn)行上采樣和像素分類。
學(xué)習(xí)率-5e-4
L2的重量衰減為2e-4。
批量為10件。
自定義類別權(quán)重方案定義為
圖7顯示了。自定義類別權(quán)重方案的公式
其中c = 1.02,類別權(quán)重限制在[1.50]的區(qū)間內(nèi)
圖8。Cityscapes數(shù)據(jù)集的性能
圖9。Camvid數(shù)據(jù)集的性能
參考:
A.Paszke、A. Chaurasia、S. Kim和E. Culurciello。Enet:用于實(shí)時(shí)語義分割的深度神經(jīng) *** 架構(gòu)。arXiv預(yù)印本arXiv:1606.02147,2016。
動(dòng)詞 (verb的縮寫)Badrinarayanan,A. Kendall和R. Cipolla,“Segnet:用于圖像分割的深度卷積編碼器-解碼器架構(gòu)”,arXiv預(yù)印本arXiv:1511.00561,2015年。
我最近也轉(zhuǎn)載了這篇論文,可以在這里找到:
https://github . com/iArunava/ENet-實(shí)時(shí)-語義-分段
想繼續(xù)查看本文相關(guān)鏈接和參考文獻(xiàn)?
點(diǎn)擊【enet——實(shí)時(shí)語義分割的深度神經(jīng)架構(gòu)】或長(zhǎng)按地址訪問:
https://ai.yanxishe.com/page/TextTranslation/1468
艾所今日推薦:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
卡耐基梅隆大學(xué)2019年春季的“神經(jīng) *** 自然語言處理”是CMU語言技術(shù)學(xué)院和計(jì)算機(jī)學(xué)院的聯(lián)合課程。其主要內(nèi)容是教學(xué)生如何利用神經(jīng) *** 做自然語言處理。神經(jīng) *** 可以被認(rèn)為是為語言建模任務(wù)提供了一個(gè)強(qiáng)有力的新工具。同時(shí),神經(jīng) *** 可以在許多任務(wù)中改進(jìn)最新技術(shù),使過去不易解決的問題變得容易和簡(jiǎn)單。
加入群免費(fèi)看視頻:https://ai.yanxishe.com/page/groupDetail/33
收集3條評(píng)論。
關(guān)鍵詞: 硅谷動(dòng)力