لینک کوتاه مطلب : https://hsgar.com/?p=6479

ترجمه کتابچه راهنمای ویژوال لگو به یک طرح قابل اجرا در ماشین


ترجمه کتابچه راهنمای ویژوال لگو به یک طرح قابل اجرا در ماشین



ECCV 2022


روچنگ وانگ
1

یونژی ژانگ
1


جیایوان مائو
2


چین-یی چنگ
3


جیاجون وو
1

1دانشگاه استنفورد

2MIT CSAIL

3آزمایشگاه هوش مصنوعی اتودسک


[Paper]


[Code]

[BibTeX]

خلاصه



ما مشکل ترجمه کتابچه راهنمای مونتاژ مبتنی بر تصویر و گام به گام ایجاد شده توسط طراحان انسانی را به دستورالعمل‌های قابل تفسیر ماشین مطالعه می‌کنیم. ما این مسئله را به عنوان یک کار پیش‌بینی متوالی فرموله می‌کنیم: در هر مرحله، مدل ما کتابچه راهنمای کاربر را می‌خواند، اجزایی را که باید به شکل فعلی اضافه شوند، مکان‌یابی می‌کند و حالت‌های سه بعدی آنها را استنباط می‌کند. این کار چالش ایجاد یک مطابقت 2 بعدی-3 بعدی بین تصویر دستی و شی 3 بعدی واقعی و تخمین ژست سه بعدی برای اشیاء سه بعدی دیده نشده را ایجاد می کند، زیرا یک جزء جدید که در یک مرحله اضافه می شود می تواند یک شی ساخته شده از مراحل قبلی باشد. برای پرداختن به این دو چالش، یک چارچوب مبتنی بر یادگیری جدید، شبکه دستی به برنامه اجرایی (MEPNet) ارائه می‌کنیم که مراحل مونتاژ را از دنباله‌ای از تصاویر دستی بازسازی می‌کند. ایده کلیدی این است که ماژول های تشخیص نقطه کلید دو بعدی عصبی و الگوریتم های طرح ریزی 2 بعدی-3 بعدی را برای پیش بینی با دقت بالا و تعمیم قوی به اجزای نادیده ادغام کنیم. MEPNet از روش‌های موجود در سه مجموعه داده دستی لگو و مجموعه داده خانه Minecraft بهتر عمل می‌کند.

نتایج


تجسم گام به گام در مجموعه داده های LEGO. هر ستون حاوی حقیقت پایه و پیش‌بینی‌های مدل‌ها برای یک مرحله است. اجزای اضافه شده در مرحله در تصاویر دستی برجسته می شوند.

تجسم ساخت مدل لگوهای ما از ابتدا.

تصویر

تجسم گام به گام نتایج در مجموعه داده 3D-Craft.

تصویر


لینک منبع

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.