EfficientDet: A Skálázható és Hatékony Objektumérzékelés Felé

Tartalomjegyzék:

EfficientDet: A Skálázható és Hatékony Objektumérzékelés Felé
EfficientDet: A Skálázható és Hatékony Objektumérzékelés Felé

Videó: EfficientDet: A Skálázható és Hatékony Objektumérzékelés Felé

Videó: EfficientDet: A Skálázható és Hatékony Objektumérzékelés Felé
Videó: Как обучить EfficientDet обнаружению объектов TensorFlow 2 2024, November
Anonim

A számítógép-látás egyik fő alkalmazásaként az objektum-észlelés egyre fontosabbá válik a nagy pontosságot igénylő, de korlátozott számítási erőforrásokkal rendelkező forgatókönyvekben, mint például a robotika és a sofőr nélküli autók. Sajnos sok modern nagy pontosságú detektor nem felel meg ezeknek a korlátozásoknak. Ennél is fontosabb, hogy a valós objektum-észlelő alkalmazások különböző platformokon futnak, amelyek gyakran eltérő erőforrásokat igényelnek.

Skálázható és hatékony tárgyfelismerés
Skálázható és hatékony tárgyfelismerés

A természetes kérdés tehát az, hogy miként lehet pontos és hatékony objektumdetektorokat tervezni, amelyek képesek alkalmazkodni az erőforrás-korlátok széles köréhez is?

A CVPR 2020-ban elfogadott EfficientDet: skálázható és hatékony objektumérzékelés új skálázható és hatékony objektumdetektor családot mutat be. A neurális hálózatok méretezésével (EfficientNet) kapcsolatos korábbi munkára építve, új kétirányú funkcionális hálózatot (BiFPN) és új méretezési szabályokat beépítve az EfficientDet modern pontosságot ér el, miközben 9-szer kisebb és jelentősen kevesebb számítást használ, mint az ismert modern detektorok. Az alábbi ábra a modellek általános hálózati architektúráját mutatja.

Kép
Kép

Modell architektúra optimalizálása

Az EfficientDet ötlete abból a törekvésből fakad, hogy megoldásokat kell találni a számítási hatékonyság javítására a korábbi korszerű felismerési modellek szisztematikus vizsgálatával. Az objektumdetektoroknak általában három fő alkotóeleme van: egy gerinc, amely kivonja az adott kép jellemzőit; objektumhálózat, amely több szintű funkciót vesz fel a gerinctől bemenetként, és a kép jellegzetes jellemzőit képviselő kombinált függvények listáját adja ki; és egy végső osztály / doboz hálózat, amely kombinált függvényekkel jósolja az egyes objektumok osztályát és helyét.

Az ezen alkatrészek tervezési lehetőségeinek áttekintése után számos kulcsfontosságú optimalizálást azonosítottunk a teljesítmény és a hatékonyság javítása érdekében. A korábbi detektorok többnyire a ResNets, a ResNeXt vagy az AmoebaNet gerincét használják, amelyek vagy kevésbé hatékonyak, vagy alacsonyabb hatékonyságúak, mint az EfficientNets. Az EfficientNet gerinc kezdeti bevezetésével sokkal nagyobb hatékonyság érhető el. Például egy RetinaNet alapvonallal kezdve, amely egy ResNet-50 gerincet használ, ablációs vizsgálatunk azt mutatja, hogy a ResNet-50 egyszerű cseréje EfficientNet-B3-mal 3% -kal javíthatja a pontosságot, miközben a számítást 20% -kal csökkenti. További optimalizálás a funkcionális hálózatok hatékonyságának javítása. Míg a korábbi detektorok többsége egyszerűen a Downlink Pyramid Network-t (FPN) használja, azt tapasztaljuk, hogy a downstream FPN eredendően csak egyirányú információáramlásra korlátozódik. Az alternatív FPN-k, mint például a PANet, további számítások költségével további upstream-t adnak hozzá.

A Neural Architecture Search (NAS) használatának legújabb kísérletei összetettebb NAS-FPN architektúrát fedeztek fel. Bár ez a hálózati struktúra hatékony, rendszertelen és erősen optimalizált egy adott feladathoz, ami megnehezíti más feladatokhoz való alkalmazkodást. E problémák megoldására javaslatot teszünk a BiFPN kétirányú függvények új hálózatára, amely megvalósítja az FPN / PANet / NAS-FPN többrétegű funkcióinak ötvözésének ötletét, amely lehetővé teszi az információk fentről lefelé és lefelé történő továbbítását. alulról felfelé. rendszeres és hatékony kapcsolatok használatával.

Kép
Kép

A hatékonyság további javítása érdekében egy új, gyorsan normalizált szintézis technikát javasolunk. A hagyományos megközelítések általában az FPN összes bemenetét ugyanúgy kezelik, még különböző felbontások mellett is. Megfigyeljük azonban, hogy a különböző felbontású bemeneti jellemzők gyakran egyenlőtlenül járulnak hozzá a kimeneti függvényekhez. Így minden egyes bemeneti függvényhez külön súlyt adunk, és hagyjuk, hogy a hálózat megtanulja mindegyik fontosságát. Valamennyi szokásos konvolúciót lecseréljük olcsóbb, mélyen elkülöníthető konvolúciókra is. Ezzel az optimalizálással a BiFPN tovább javítja a pontosságot 4% -kal, miközben a számítási költségeket 50% -kal csökkenti.

A harmadik optimalizálás magában foglalja a pontosság és a hatékonyság közötti legjobb kompromisszum elérését különböző erőforrás-korlátozások mellett. Korábbi munkánk kimutatta, hogy a hálózat mélységének, szélességének és felbontásának együttes méretezése jelentősen javíthatja a képfelismerés teljesítményét. Ennek az ötletnek az ihlette egy új kompozit méretezési módszert javasolunk az objektumdetektorok számára, amely együttesen növeli a felbontást / mélységet / szélességet. Minden hálózati komponensnek, azaz a gerincnek, az objektumnak és a blokk / osztály prediktív hálózatnak egy komplex méretezési tényezője lesz, amely heurisztikus szabályok segítségével vezérli az összes méretezési dimenziót. Ez a megközelítés megkönnyíti a modell méretezésének meghatározását egy adott célerőforrás-kényszer skálafaktorának kiszámításával.

Az új gerinc és a BiFPN ötvözésével először egy kis EfficientDet-D0 alapvonalat tervezünk, majd összetett méretezést alkalmazva az EfficientDet-D1-től D7-ig jutunk. Mindegyik sorozatmodell magasabb számítási költséggel jár, az erőforrás-korlátok széles skáláját fedezi 3 milliárd FLOP-tól 300 milliárd FLOPS-ig, és nagyobb pontosságot biztosít.

Teljesítmény modell

Az EfficientDet értékelése a COCO adatkészleten, amely egy széles körben használt referencia adatkészlet az objektumok detektálására. Az EfficientDet-D7 négyszer kevesebb paramétert és 9,4-szer kevesebb számítást használva 52,2 átlagos átlagpontosságot (mAP) ér el, ami 1,5 ponttal magasabb, mint az előző modern modell.

Kép
Kép

Összehasonlítottuk a paraméter méretét és a CPU / GPU késését is az EfficientDet és a korábbi modellek között. Hasonló pontossági korlátok mellett az EfficientDet modellek 2–4-szer gyorsabban futnak a GPU-n, és 5–11-szer gyorsabban a processzoron, mint más detektorok. Míg az EfficientDet modellek elsősorban az objektum észlelését szolgálják, más feladatokban is teszteljük hatékonyságukat, például a szemantikus szegmentálás során. A szegmentálási feladatok elvégzéséhez kissé módosítjuk az EfficientDet-D4-et az érzékelőfej és a fejvesztés és veszteség pótlásával, miközben megtartjuk a méretezett gerincet és a BiFPN-t. Összehasonlítjuk ezt a modellt a Pascal VOC 2012, egy széles körben használt szegmentálási tesztkészlet korábbi, modern szegmentációs modelljeivel.

Kép
Kép

Kivételes teljesítményükre való tekintettel az EfficientDet várhatóan új alapként szolgál a jövőbeli objektum-felderítési kutatáshoz, és potenciálisan rendkívül valós objektum-észlelési modelleket fog felhasználni számos valós alkalmazásban. Megnyitotta tehát a kód és az előképzett modell összes töréspontját a Github.com oldalon.

Ajánlott: