• баннер

OpenAI Point E: Абри нуқтаи 3D аз шаклҳои мавҷҳои мураккаб дар дақиқаҳо дар як GPU эҷод кунед

Дар мақолаи нави Point-E: Система барои тавлиди абрҳои нуқтаи 3D аз сигналҳои мураккаб, гурӯҳи тадқиқотии OpenAI Point E, як системаи шартии синтези матни абрии 3D-ро муаррифӣ мекунад, ки моделҳои диффузиро барои эҷоди шаклҳои гуногун ва мураккаби 3D, ки бо матни мураккаб асос ёфтааст, истифода мебарад. ишораҳо.дар дақиқаҳо дар як GPU.
Фаъолияти аҷиби моделҳои муосири тавлиди тасвирҳои имрӯза ба таҳқиқот дар тавлиди объектҳои матнии 3D ҳавасманд кардааст.Аммо, бар хилофи моделҳои 2D, ки метавонанд дар тӯли дақиқаҳо ва ҳатто сонияҳо натиҷа ба даст оранд, моделҳои тавлидкунандаи объект одатан барои тавлиди як намуна чанд соат кори GPU-ро талаб мекунанд.
Дар мақолаи нави Point-E: Система барои тавлиди абрҳои нуқтаи 3D аз сигналҳои мураккаб, гурӯҳи тадқиқотии OpenAI Point·E, як системаи шартии синтези матниро барои абрҳои нуқтаи 3D пешниҳод мекунад.Ин равиши нав модели паҳнкуниро барои эҷод кардани шаклҳои гуногун ва мураккаби 3D аз сигналҳои матнии мураккаб дар тӯли як ё ду дақиқа дар як GPU истифода мебарад.
Даста ба мушкилоти табдили матн ба 3D нигаронида шудааст, ки барои демократикунонии эҷоди мундариҷаи 3D барои замимаҳои ҷаҳони воқеӣ, аз воқеияти виртуалӣ ва бозӣ то тарҳи саноатӣ муҳим аст.Усулҳои мавҷудаи табдили матн ба 3D ба ду категория тақсим мешаванд, ки ҳар яки онҳо нуқсонҳои худро доранд: 1) моделҳои тавлидкунанда метавонанд барои тавлиди намунаҳо самаранок истифода шаванд, аммо барои сигналҳои матнии гуногун ва мураккаб миқёси муассир карда наметавонанд;2) модели тасвири матнии қаблан омӯзонидашуда барои коркарди аломатҳои матнии мураккаб ва гуногун, аммо ин равиш аз ҷиҳати ҳисоббарорӣ пуршиддат аст ва модел метавонад ба осонӣ дар минимуми маҳаллӣ часпида гирад, ки ба объектҳои пурмазмун ё ҳамоҳангшудаи 3D мувофиқат намекунанд.
Аз ин рӯ, гурӯҳ як равиши алтернативӣеро таҳқиқ кард, ки ҳадафи он муттаҳид кардани ҷиҳатҳои ду равиши дар боло зикршуда бо истифода аз модели паҳншавии матн ба тасвир, ки дар маҷмӯи зиёди ҷуфтҳои матн-тасвир таълим дода шудааст (имкон медиҳад, ки сигналҳои гуногун ва мураккабро идора кунад) ва модели паҳншавии тасвири 3D, ки дар маҷмӯи хурдтари ҷуфтҳои тасвири матнӣ таълим дода шудааст.маҷмӯи додаҳои ҷуфти тасвир-3D.Модели матн ба тасвир аввал тасвири воридшударо барои эҷоди як намоиши синтетикӣ намуна мегирад ва модели тасвир ба 3D абри нуқтаи 3D-ро дар асоси тасвири интихобшуда эҷод мекунад.
Стеки тавлидкунандаи фармон ба чаҳорчӯбаҳои тавлидкунандаи ба наздикӣ пешниҳодшуда барои ба таври шартӣ тавлид кардани тасвирҳо аз матн асос ёфтааст (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Онҳо модели GLIDE-ро бо 3 миллиард параметрҳои GLIDE истифода мебаранд (Nichol et al., 2021), ки дар моделҳои 3D-и намоишшуда ба таври дақиқ танзим карда шудаанд, ҳамчун модели табдили матн ба тасвир ва маҷмӯи моделҳои диффузия, ки абрҳои RGB-ро ҳамчун абрҳои нуқта тавлид мекунанд. модели табдил.тасвирҳо ба тасвир.Моделҳои 3D.
Дар ҳоле ки кори қаблӣ меъмории 3D-ро барои коркарди абрҳои нуқта истифода мебурд, муҳаққиқон барои баланд бардоштани самаранокӣ модели оддии табдилдиҳандаро (Васвани ва дигарон, 2017) истифода бурданд.Дар меъмории модели диффузии онҳо, тасвирҳои абрии нуқта аввал ба модели қаблан омӯзонидашудаи ViT-L/14 CLIP дода мешаванд ва сипас торҳои баромад ба конвертер ҳамчун маркер ворид карда мешаванд.
Дар омӯзиши эмпирикии худ, гурӯҳ усули пешниҳодшудаи Point·E-ро бо дигар моделҳои тавлидкунандаи 3D оид ба баҳодиҳии сигналҳо аз муайянкунии объекти COCO, сегментатсия ва маҷмӯи додаҳои имзо муқоиса кард.Натиҷаҳо тасдиқ мекунанд, ки Point·E қодир аст шаклҳои гуногун ва мураккаби 3D-ро аз сигналҳои матнии мураккаб тавлид кунад ва вақти хулосабарориро аз як то ду дараҷаи бузургӣ суръат бахшад.Даста умедвор аст, ки кори онҳо ба таҳқиқоти минбаъда дар синтези матни 3D илҳом мебахшад.
Модели пешакии паҳнкунии абрҳои нуқта ва рамзи арзёбӣ дар GitHub лоиҳа дастрас аст.Document Point-E: Система барои сохтани абрҳои нуқтаи 3D аз маслиҳатҳои мураккаб дар arXiv мавҷуд аст.
Мо медонем, ки шумо намехоҳед аз ягон хабар ё кашфиёти илмӣ даст кашед.Барои гирифтани навсозиҳои ҳарҳафтаинаи AI ба номаи машҳури Synced Global AI Weekly обуна шавед.


Вақти интишор: 28 декабри 2022