لینک کوتاه مطلب : https://hsgar.com/?p=3298

DALL-E Mini چقدر در اوریگامی خوب است؟

افراد زیادی اخیراً نتایج آزمایش‌های خود را با DALL-E، یک مدل هوش مصنوعی که می‌تواند تصاویر را بر اساس پیام‌های متنی تولید کند، ارسال کرده‌اند. فقط برای سرگرمی، تصمیم گرفتم بررسی کنم که ایده اوریگامی چیست. از آنجایی که دسترسی به مدل کامل و همچنین جدیدترین تجسم آن، DALL-E 2، محدود است، من با استفاده از یک مشابه، اما بسیار ساده تر، آزمایش کردم. DALL-E Mini مدل، که به صورت رایگان در دسترس است.

نتایج DALL-E Mini برای سریع “جرثقیل اوریگامی روی میز”

برای شروع با چیز ساده، اولین درخواستی که امتحان کردم «جرثقیل اریگامی روی میز» بود. من کمی ناامید شدم، زیرا جرثقیل یک مدل محبوب است، انتظار داشتم تصاویر کاملاً شبیه جرثقیل باشند (قسمت “روی میز” بهتر عمل کرد). در حالی که اشیاء تولید شده دارای کیفیتی شبیه به اوریگامی هستند، اما شباهت زیادی به جرثقیل های واقعی ندارند، اگرچه تصویر آخر نزدیکتر است.

نتایج DALL-E Mini برای سریع

نتایج DALL-E Mini برای سریع “قایق اوریگامی شناور روی آب”

مدل محبوب دیگر قایق کاغذی است، بنابراین «قایق اوریگامی شناور روی آب» یکی دیگر از مواردی بود که بررسی کردم. این یکی بسیار بهتر عمل کرد، با تمام تصاویر تولید شده کاملاً به چیزی که انتظار داشتم، و برخی (مثلاً # 6، #8، و #9) واقعاً خوب بودند، با قایق، آب و بازتاب‌ها همه در مکان‌های مناسب. حدس من این است که چرا قایق خیلی بهتر از جرثقیل کار می کند این است که به داده های یادگیری خلاصه می شود. احتمالاً قایق های کاغذی در تصاویر استوک یا سایر داده های ورودی بسیار بیشتر از جرثقیل های اوریگامی هستند.

نتایج DALL-E Mini برای سریع

نتایج DALL-E Mini برای سریع “تصویر اریگامی بر اساس شبکه مربع”

نتایج DALL-E Mini برای

نتایج DALL-E Mini برای “تصویرسازی اریگامی بر اساس شبکه شش گوش”

نوع اوریگامی که من بیشتر تا می‌کنم، تسسل‌های اوریگامی هستند، بنابراین از DALL-E Mini خواستم تا یک «نقاشی اوریگامی بر اساس شبکه مربعی» و «تصویر اوریگامی بر اساس شبکه شش‌صدایی» تولید کند. نتایج… جالب بود. چیزی که مدل در هر دو مورد به درستی انجام شد، ایده تکراری بودن الگوهای تسلی بود. این کلمات را نیز تفسیر می کرد مربع و هگز همانطور که به تقارن الگو اشاره دارد. متأسفانه، در مورد شبکه شش ضلعی، همه چیز را بیش از حد تحت اللفظی در نظر گرفت، با بسیاری از الگوهای تولید شده حاوی شش ضلعی تحت اللفظی (که اتفاق می افتد، اما معمولاً چنین نیست). همچنین، در هر دو مورد، الگوها خیلی شبیه اوریگامی نیستند و بیشتر شبیه نقاشی‌های انتزاعی هستند (مخصوصاً آنهایی که مبتنی بر شبکه مربع هستند). حدس کور من در مورد اتفاقی که در حال رخ دادن است این است که سیستم از مفهوم تسلشن (که در معنای ریاضی آن درک می شود) و اوریگامی نوعی سبک است، آگاه است، اما از اینکه تسلاسیون های اوریگامی چیست، آگاه نیست، و در نتیجه درخواست های من باعث شده است. آن را به تولید “تصویرهای اریگامی، به سبک اوریگامی” به جای “تصویرهای اوریگامی واقعی”. باز هم، احتمالاً یک موضوع مربوط به داده های آموزشی است.

نتایج DALL-E Mini برای

نتایج DALL-E Mini برای “چند وجهی اوریگامی مدولار”

یکی دیگر از ژانرهای رایج اوریگامی هندسی، “چند وجهی اوریگامی مدولار”، تصاویر شگفت آور خوبی ایجاد کرد. همه آنها لکه دار هستند و خیلی دقیق نیستند، اما همه آنها شکل مناسب و ویژگی های اساسی دارند. جالب اینجاست که همه آنها چندین رنگ را نیز نمایش می دهند، ویژگی رایج، اما غیر ضروری برای مدل های واقعی از این نوع.

نتایج DALL-E Mini برای سریع

نتایج DALL-E Mini برای سریع “خانه روستایی به سبک اوریگامی”

نتایج DALL-E Mini برای

نتایج DALL-E Mini برای “خانه روستایی اوریگامی” سریع

نتایج DALL-E Mini برای سریع

نتایج DALL-E Mini برای سریع “خانه روستایی”

برای بررسی حس من که در اکثر موارد برای DALL-E Mini وجود دارد اوریگامی بیشتر در مورد انتقال سبک است تا ارجاع به مدل های واقعی اوریگامی، من چندین دستور را امتحان کردم که از عبارت “styled as origami” استفاده می کرد. می‌توانید نتایج نمونه‌ای را برای «خانه روستایی به سبک اوریگامی» ببینید و آنها را با آنچه برای «خانه روستایی اوریگامی» تولید می‌شود مقایسه کنید. اساساً، نتایج یکسان هستند (تغییر تصادفی را برای تصاویر ایجاد شده در پاسخ به یک اعلان نیز قابل مشاهده است، بدهید یا بگیرید). در هر دو مورد، نتایج بسیار خوب به نظر می‌رسند و دارای یک سبک اوریگامی هستند (من بخش‌های پلیسه ضخیم را در تصویر شماره 8 برای اولین فرمان جالب دیدم)، اما به هیچ وجه شبیه مدل‌های اوریگامی واقعی خانه‌ها نیستند. فقط برای مقایسه، در زیر نتایج را برای “خانه روستایی” سریع بدون هیچ اشاره ای به اوریگامی اضافه کردم.

نتایج DALL-E Mini برای

نتایج DALL-E Mini برای “الگوی چین اوریگامی که از چین‌کاری جعبه استفاده می‌کند” را نشان می‌دهد.

دستورالعمل های اوریگامی چطور؟ من با طرح نسبتا بلندپروازانه “الگوی چین اوریگامی که از چین خوردگی جعبه استفاده می کند” شروع کردم که منجر به یک فاجعه کامل شد. هیچ یک از تصاویر حتی به چیزی که باید باشند نزدیک نمی شوند. برخی نشان می‌دهند که مدل درخواست را به معنای واقعی کلمه به‌عنوان کیسه‌ای از کلمات تفسیر می‌کند، زیرا به عنوان مثال، تصویر شماره 2 حاوی اشیایی است که می‌توانند جعبه‌هایی باشند که به شکل اوریگامی به شیوه‌ای شبیه به آنچه در برخی از تصاویر قبلی دیده می‌شود، طراحی شده‌اند.

نتایج DALL-E Mini برای دستور

نتایج DALL-E Mini برای دستور “نمودارهای اوریگامی برای تا کردن یک فیل”

درک الگوهای چین حتی برای بسیاری از انسان ها سخت است، بنابراین تصمیم گرفتم ببینم نظر DALL-E Mini در مورد نمودارهای سنتی گام به گام چیست. با توجه به دستور “نمودارهای اوریگامی برای تا کردن یک فیل”، نقاشی هایی ایجاد کرد که اگرچه به عنوان دستورالعمل معنی ندارند، اما در واقع به خوبی از سبک کلی نمودارهای اوریگامی تقلید می کنند. همه تصاویر تولید شده طرح‌بندی معمولی نمودارهای متعدد را در یک صفحه نشان می‌دهند و برخی نیز اشکالی شبیه فیل را نشان می‌دهند. بدیهی است که هیچ پیشروی منطقی تا شدن بین مراحل وجود ندارد، زیرا مدل نمی داند که مراحل نشان دهنده یک دنباله هستند. این احتمالاً مشکلی مشابه همان چیزی است که باعث می شود DALL-E در تولید متن خیلی خوب نباشد، حتی اگر می تواند به خوبی با حروف جداگانه مقابله کند. و بدیهی است که تایپ کردن یک کلمه از حروف بسیار ساده تر از یافتن یک ترتیب معقول از نمودارهای تاشو است.

نتایج DALL-E Mini برای

نتایج DALL-E Mini برای “اژدهای اوریگامی” سریع

بنابراین، به طور کلی، DALL-E Mini چقدر در اوریگامی خوب است؟ خیلی خوب نیست، اما از راه های جالبی شکست می خورد. به نظر می رسد که یاد گرفته است قایق اوریگامی چیست و به نظر کاملاً متفاوت از یک قایق معمولی است و چند وجهی اوریگامی مدولار و احتمالاً اژدهای اوریگامی را درک می کند، اما برای موضوعات دیگر که امتحان کردم، این کلمه را در نظر می گیرد. اوریگامی در اعلان فقط به عنوان یک اشاره یک ظاهر طراحی شده است. نمی‌تواند الگوهای چین و چروک را ترسیم کند، اما نمودارهای استاندارد اریگامی که تولید می‌کند بسیار خوب به نظر می‌رسند، اگرچه از نظر معنایی چرند بودند.

چندین چیز به عنوان مرحله بعدی ارزش کاوش را دارد. اول اینکه اگر کسی به آن دسترسی داشته باشد بسیار جالب خواهد بود DALL-E 2
یا Imagen، می تواند همان درخواست ها را بررسی کند. DALL-E Mini دیگر پیشرفته نیست. اما، از آنجایی که خروجی‌های مدل به داده‌های یادگیری بستگی دارد، چیزی که من را بیشتر کنجکاو می‌کند این است که اگر این مدل‌ها با مجموعه داده‌ای متمرکز بر اوریگامی واقعی تغذیه شوند، چه چیزی می‌توانند تولید کنند.

لینک منبع

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.