چگونه این امر محقق می شود؟ Magic3D یک رویکرد دو مرحله ای دارد که در مرحله اول یک مدل سه بعدی درشت تولید می کند. این امکان پردازش سریعتر را فراهم می کند. سپس مرحله دوم مدل درشت را می گیرد و آن را با وضوح بالاتر اصلاح می کند.

نمونه های کمی از این در حال حاضر وجود دارد. یکی از مواردی که ما از آن مطلع هستیم از آزمایشگاه های Luma است. این شرکت در حال توسعه یک سیستم اسکن سه بعدی مبتنی بر NeRF است که اخیراً آن را آزمایش کردیم. (“NeRF” = “Neural Radiosity Field”.) سپس شرکت به طور ناگهانی یک ویژگی آزمایشی جدید را برای تولید مدل های سه بعدی از ورودی متن با استفاده از سیستم موجود خود اعلام کرد. پیامدهای این فناوری خیره کننده است.

این مفهوم به قلمروهای دیگر، از جمله تولید موسیقی، متن و موارد دیگر گسترش یافته است. یکی از آنها، به طور باورنکردنی، “مدل متن به سه بعدی” است. درست است، شما به معنای واقعی کلمه می توانید یک مدل سه بعدی بخواهید و می توان آن را تولید کرد.
این پیشرفت قابل توجه است، اما هنوز یک قدم در مسیر به سوی جهانی است که در آن میتوانیم به سرعت مدلهای سه بعدی را بخواهیم و از استفاده از ابزارهای CAD کاملاً اجتناب کنیم. انتظار من این است که ابتدا برای مدل های ارگانیک مانند مجسمه ها و مجسمه ها قابل استفاده باشد. بعداً این فرآیند میتواند به روشی جدید برای طراحی مدلهای سه بعدی قطعات مکانیکی تبدیل شود و رویکرد تکراری فعالشده توسط این تحقیق شاید بتواند به یک طراح در فرآیند طراحی پیچیده کمک کند.
بسیاری از خوانندگان Fabbaloo تا حدودی با سیستم های متن به تصویر محبوب (و بحث برانگیز) آشنا هستند. اینها یک متن را میپذیرند و به سرعت مجموعهای از تصاویر بسیار دقیق و هنری از درخواست ایجاد میکنند. این فناوری قرار است دنیای تصاویر را متحول کند و هنوز توسط تعدادی از طرف ها در حال توسعه است.
این مقاله سرعت به دست آمده توسط این روش را توضیح می دهد:
ما از هر دو مدل صحنه کارآمد و پیشینهای انتشار با وضوح بالا در یک رویکرد درشت به ریز سود می بریم. بهویژه، مدلهای مش سهبعدی با وضوح تصویر به خوبی مقیاس میشوند و از مزایای نظارت با وضوح بالاتر که توسط مدل انتشار نهفته به ارمغان میآید بدون کاهش سرعت آن لذت میبرند. از یک پیام متنی تا یک مدل مش سه بعدی با کیفیت بالا و آماده استفاده در موتورهای گرافیکی 40 دقیقه طول می کشد.
اکنون مشخص شده است که NVIDIA روی این مشکل کار کرده و رویکردی برای حل این مشکلات ایجاد کرده است.
به دلیل رویکرد دو مرحلهای، میتوان مدلهای سه بعدی ضعیف را با تزریق آنها به فرآیند اصلاح کرد. این شبیه به رویکرد “img2img” است که توسط سیستمهای تصویر هوش مصنوعی استفاده میشود.
از طريق تحقیقات انویدیا و Arxiv
سیستم آزمایشی Magic3D آنها “متن با وضوح بالا برای ایجاد محتوای سه بعدی” را ارائه می دهد.

مثال دیگر این است DreamFusion، یک پروژه متن باز که خدمات تبدیل متن به سه بعدی را ارائه می دهد.
با این حال، مشکلاتی وجود دارد. پردازش NeRF ممکن است زمان زیادی طول بکشد تا تکمیل شود، که به نیاز به تعداد زیادی سخت افزار گران قیمت نیاز دارد. علاوه بر این، مدلهای سهبعدی تولید شده به دلیل وضوح تصویری که در فرآیند تولید میشود، جزئیات کمتری دارند.
محققان NVIDIA تکنیک بهبود یافته ای را برای تولید خودکار مدل های سه بعدی از ورودی متن ایجاد کرده اند.