EfficientDet: A Skálázható és Hatékony Objektumérzékelés Felé

2025 Szerző: Ian Gardner | [email protected]. Utoljára módosítva: 2025-01-24 11:02

A számítógép-látás egyik fő alkalmazásaként az objektum-észlelés egyre fontosabbá válik a nagy pontosságot igénylő, de korlátozott számítási erőforrásokkal rendelkező forgatókönyvekben, mint például a robotika és a sofőr nélküli autók. Sajnos sok modern nagy pontosságú detektor nem felel meg ezeknek a korlátozásoknak. Ennél is fontosabb, hogy a valós objektum-észlelő alkalmazások különböző platformokon futnak, amelyek gyakran eltérő erőforrásokat igényelnek.

A természetes kérdés tehát az, hogy miként lehet pontos és hatékony objektumdetektorokat tervezni, amelyek képesek alkalmazkodni az erőforrás-korlátok széles köréhez is?

A CVPR 2020-ban elfogadott EfficientDet: skálázható és hatékony objektumérzékelés új skálázható és hatékony objektumdetektor családot mutat be. A neurális hálózatok méretezésével (EfficientNet) kapcsolatos korábbi munkára építve, új kétirányú funkcionális hálózatot (BiFPN) és új méretezési szabályokat beépítve az EfficientDet modern pontosságot ér el, miközben 9-szer kisebb és jelentősen kevesebb számítást használ, mint az ismert modern detektorok. Az alábbi ábra a modellek általános hálózati architektúráját mutatja.

Modell architektúra optimalizálása

Az EfficientDet ötlete abból a törekvésből fakad, hogy megoldásokat kell találni a számítási hatékonyság javítására a korábbi korszerű felismerési modellek szisztematikus vizsgálatával. Az objektumdetektoroknak általában három fő alkotóeleme van: egy gerinc, amely kivonja az adott kép jellemzőit; objektumhálózat, amely több szintű funkciót vesz fel a gerinctől bemenetként, és a kép jellegzetes jellemzőit képviselő kombinált függvények listáját adja ki; és egy végső osztály / doboz hálózat, amely kombinált függvényekkel jósolja az egyes objektumok osztályát és helyét.

Az ezen alkatrészek tervezési lehetőségeinek áttekintése után számos kulcsfontosságú optimalizálást azonosítottunk a teljesítmény és a hatékonyság javítása érdekében. A korábbi detektorok többnyire a ResNets, a ResNeXt vagy az AmoebaNet gerincét használják, amelyek vagy kevésbé hatékonyak, vagy alacsonyabb hatékonyságúak, mint az EfficientNets. Az EfficientNet gerinc kezdeti bevezetésével sokkal nagyobb hatékonyság érhető el. Például egy RetinaNet alapvonallal kezdve, amely egy ResNet-50 gerincet használ, ablációs vizsgálatunk azt mutatja, hogy a ResNet-50 egyszerű cseréje EfficientNet-B3-mal 3% -kal javíthatja a pontosságot, miközben a számítást 20% -kal csökkenti. További optimalizálás a funkcionális hálózatok hatékonyságának javítása. Míg a korábbi detektorok többsége egyszerűen a Downlink Pyramid Network-t (FPN) használja, azt tapasztaljuk, hogy a downstream FPN eredendően csak egyirányú információáramlásra korlátozódik. Az alternatív FPN-k, mint például a PANet, további számítások költségével további upstream-t adnak hozzá.

A Neural Architecture Search (NAS) használatának legújabb kísérletei összetettebb NAS-FPN architektúrát fedeztek fel. Bár ez a hálózati struktúra hatékony, rendszertelen és erősen optimalizált egy adott feladathoz, ami megnehezíti más feladatokhoz való alkalmazkodást. E problémák megoldására javaslatot teszünk a BiFPN kétirányú függvények új hálózatára, amely megvalósítja az FPN / PANet / NAS-FPN többrétegű funkcióinak ötvözésének ötletét, amely lehetővé teszi az információk fentről lefelé és lefelé történő továbbítását. alulról felfelé. rendszeres és hatékony kapcsolatok használatával.

A hatékonyság további javítása érdekében egy új, gyorsan normalizált szintézis technikát javasolunk. A hagyományos megközelítések általában az FPN összes bemenetét ugyanúgy kezelik, még különböző felbontások mellett is. Megfigyeljük azonban, hogy a különböző felbontású bemeneti jellemzők gyakran egyenlőtlenül járulnak hozzá a kimeneti függvényekhez. Így minden egyes bemeneti függvényhez külön súlyt adunk, és hagyjuk, hogy a hálózat megtanulja mindegyik fontosságát. Valamennyi szokásos konvolúciót lecseréljük olcsóbb, mélyen elkülöníthető konvolúciókra is. Ezzel az optimalizálással a BiFPN tovább javítja a pontosságot 4% -kal, miközben a számítási költségeket 50% -kal csökkenti.

A harmadik optimalizálás magában foglalja a pontosság és a hatékonyság közötti legjobb kompromisszum elérését különböző erőforrás-korlátozások mellett. Korábbi munkánk kimutatta, hogy a hálózat mélységének, szélességének és felbontásának együttes méretezése jelentősen javíthatja a képfelismerés teljesítményét. Ennek az ötletnek az ihlette egy új kompozit méretezési módszert javasolunk az objektumdetektorok számára, amely együttesen növeli a felbontást / mélységet / szélességet. Minden hálózati komponensnek, azaz a gerincnek, az objektumnak és a blokk / osztály prediktív hálózatnak egy komplex méretezési tényezője lesz, amely heurisztikus szabályok segítségével vezérli az összes méretezési dimenziót. Ez a megközelítés megkönnyíti a modell méretezésének meghatározását egy adott célerőforrás-kényszer skálafaktorának kiszámításával.

Az új gerinc és a BiFPN ötvözésével először egy kis EfficientDet-D0 alapvonalat tervezünk, majd összetett méretezést alkalmazva az EfficientDet-D1-től D7-ig jutunk. Mindegyik sorozatmodell magasabb számítási költséggel jár, az erőforrás-korlátok széles skáláját fedezi 3 milliárd FLOP-tól 300 milliárd FLOPS-ig, és nagyobb pontosságot biztosít.

Teljesítmény modell

Az EfficientDet értékelése a COCO adatkészleten, amely egy széles körben használt referencia adatkészlet az objektumok detektálására. Az EfficientDet-D7 négyszer kevesebb paramétert és 9,4-szer kevesebb számítást használva 52,2 átlagos átlagpontosságot (mAP) ér el, ami 1,5 ponttal magasabb, mint az előző modern modell.

Összehasonlítottuk a paraméter méretét és a CPU / GPU késését is az EfficientDet és a korábbi modellek között. Hasonló pontossági korlátok mellett az EfficientDet modellek 2–4-szer gyorsabban futnak a GPU-n, és 5–11-szer gyorsabban a processzoron, mint más detektorok. Míg az EfficientDet modellek elsősorban az objektum észlelését szolgálják, más feladatokban is teszteljük hatékonyságukat, például a szemantikus szegmentálás során. A szegmentálási feladatok elvégzéséhez kissé módosítjuk az EfficientDet-D4-et az érzékelőfej és a fejvesztés és veszteség pótlásával, miközben megtartjuk a méretezett gerincet és a BiFPN-t. Összehasonlítjuk ezt a modellt a Pascal VOC 2012, egy széles körben használt szegmentálási tesztkészlet korábbi, modern szegmentációs modelljeivel.

Kivételes teljesítményükre való tekintettel az EfficientDet várhatóan új alapként szolgál a jövőbeli objektum-felderítési kutatáshoz, és potenciálisan rendkívül valós objektum-észlelési modelleket fog felhasználni számos valós alkalmazásban. Megnyitotta tehát a kód és az előképzett modell összes töréspontját a Github.com oldalon.

Ajánlott:

Hogyan Engedélyezhetem A Beeline Felé Történő Hívásátirányítást

A Beeline felé történő hívásátirányítás olyan szolgáltatás, amely lehetővé teszi a bejövő hívások átirányítását egy számról bármelyik másikra: bármely szolgáltató mobilszáma, vezetékes, ideértve a nemzetközi vagy a távolsági hívásokat is. Ez a szolgáltatás nagyon hasznos lesz mindenki számára, aki fél a fontos hívások elmaradásától

Hogyan Lehet Hatékony értékesítési Hirdetést Létrehozni Az Avito-n

Az ezen az internetes oldalon folytatott erős verseny körülményei között alaposan át kell gondolnia a hirdetés egyes elemeit. Mit kell figyelembe venni annak érdekében, hogy hirdetését észrevegyék a hasonlóak között? Még akkor is, ha egyedi és hasznos tárgya van, nagyon egyszerűen nem adja el, ha olyan hirdetést hoz létre, amely még egy nagyon érdeklődő vásárló figyelmét sem fogja felkelteni

Hogyan Lehet Hívást átirányítani Az Utel Felé

A hívásátirányítás lehetővé teszi a bejövő hívások fogadásának konfigurálását új mobiltelefonszám vásárlásakor úgy, hogy a régi számról az újra irányuljanak. Szükséges - mobiltelefon. Utasítás 1. lépés Állítsa be a hívásátirányítást az Utel-ben, hogy bejövő hívásokat fogadjon mobiltelefonjára az Ön által megadott bármely számra, legyen az városi, mobil, nemzetközi vagy távolsági szám

EfficientDet: A Skálázható és Hatékony Objektumérzékelés Felé

Tartalomjegyzék:

Modell architektúra optimalizálása

Teljesítmény modell

Ajánlott:

Hogyan Engedélyezhetem A Beeline Felé Történő Hívásátirányítást

Hogyan Lehet Hatékony értékesítési Hirdetést Létrehozni Az Avito-n

Hogyan Lehet Hívást átirányítani Az Utel Felé

Hogyan állítson Be Saját Maga útválasztót

Hogyan Hangoljunk Egy Parabolaantennát Egy Műholdra

Hogyan Lehet Hangolni Az Antennát Egy Műholdra

Hogyan Találjuk Meg A Yamal Műholdat

Hogyan Találhatunk Címet Telefonszám Alapján Kijevben

Hogyan Villogjon A Sony Erickson K790i

Hogyan Lehet Megváltoztatni Az Időt Az Android Rendszeren

Hogyan Lehet Azonosítani A Nevet Egy Szám Alapján

Hogyan Válasszunk Otthoni Kivetítőt

Hogyan Lehet Bekapcsolni A Karaokét

A Telefon Villogása

Hogyan Lehet Szétszerelni A Zárat

Hogyan Lehet Megszabadulni A Lemezen Lévő Karcolásoktól

Hogyan Kell Pumpálni A Hangszórókat

Hogyan Továbbítsuk A Telefonkönyvet