از طريق OpenAI، ArXiv (PDF) و GitHub
سیستم Point-E OpenAI « Fabbaloo

داستان گمانهزنی من در ژوئن گذشته یک مرحله فراتر از نرمافزار هوش مصنوعی «متن به تصویر» را مورد بحث قرار داد و به قابلیت پیشرفتهتری «متن به سهبعدی» فکر کرد. نمی دانستم که تنها چند ماه بعد در واقعیت ظاهر می شود. هفته گذشته هوش مصنوعی Luma ابزاری را منتشر کرد که به معنای واقعی کلمه می تواند مدل های سه بعدی قابل چاپ سه بعدی را از یک پیام متنی تولید کند.
نکته: “ابر نقطه” مجموعه ای از نقاط در فضای سه بعدی است که یک شی را نشان می دهد. آنها را می توان به راحتی با بسیاری از ابزارهای نرم افزاری موجود به یک مدل مش مانند فرمت STL تبدیل کرد.
با این وجود، این یک گام فوق العاده به جلو است.
دو مدل آموزشی ارائه شده است. یکی درخواست های متنی را می پذیرد و مدل های سه بعدی خام تولید می کند. دیگری تصاویر را به عنوان ورودی می پذیرد و سعی می کند از آنها یک مدل سه بعدی بسازد. همچنین یک مدل رگرسیون SDF برای تبدیل ابرهای نقطه تولید شده به مش وجود دارد که می تواند در نرم افزار CAD استفاده شود.
متن به 3 بعدی قبلاً انجام شده است، اما پردازش مورد نیاز برای تکمیل کار، حتی در تجهیزات بزرگ، زمان بسیار زیادی طول می کشد. سیستم جدید Point-E الگوریتم جدیدی دارد که بسیار سریعتر است. طبق مقاله تحقیقاتی همراه، سرعت “دو مرتبه قدر” سریعتر است. با این حال، نویسندگان مقاله اذعان میکنند که نتایج «از نظر کیفیت نمونه از سطح پیشرفتهتر نیست».
با سرعتی که این فناوری در حال تغییر است، ممکن است ماه آینده باشد.
با نگاهی به نتایج نمونه، میتوانیم ببینیم که آنها واقعاً خام هستند، اما اشکال و رنگهای مناسب قابل تشخیص هستند. اگر از نزدیک نگاه کنید، می توانید ببینید که اشیاء سه بعدی در واقع مجموعه ای از نقاط هستند که برای ساختن یک ساختار جامد برای اهداف مشاهده گسترش یافته اند.
همه چیز در متن به سرعت به سمت فضای هوش مصنوعی مدل سه بعدی پیش می رود.
نحوه عملکرد این سیستم ها ممکن است گیج کننده باشد، اما یک راه ساده برای درک آنها مقایسه آن با چیزی است که همه دیده اند: تکمیل خودکار جستجوی Google. همانطور که شما تایپ می کنید، سیستم سعی می کند حروف و کلمات زیر را بر اساس آموزش قبلی پیش بینی کند.
“یک صندلی چوبی ویکتوریایی پرآذین، با کوسن مخملی”
در سیستمهای تولید تصویر، آنها فقط با یک تصویر نویز شروع میکنند و بارها و بارها تا زمانی که یک تصویر ظاهر شود، پیکسلها را پیشبینی میکنند. این فرآیند “Diffusion” نامیده می شود و اغلب نتایج می توانند به طور فوق العاده دقیق و روشنگری باشند. Point-E همین کار را می کند، مگر در حالت سه بعدی.
این سیستم مدل سه بعدی را به روشی مشابه آنچه برای ایجاد تصاویر مصنوعی در چندین سیستم محبوب مانند MidJourney، DALL-E و Stable Diffusion انجام می شود، تولید می کند.
ایده در اینجا این است که کاربر میتواند درخواستهای متنی ساده (یک «اعلان») برای به دست آوردن یک مدل قابل چاپ سه بعدی یا مدلی که میتواند به عنوان یک دارایی سه بعدی در یک بازی استفاده شود، وارد کند. یک مثال سریع ممکن است این باشد:
این به کجا می رود؟ تنها می توان انتظار داشت که این سیستم ها به تدریج از نظر کیفیت، سرعت و کارایی افزایش پیدا کنند. ممکن است واقعاً روزی در آینده نزدیک باشد که بتوانید یک قطعه دقیق را بخواهید و یک مدل سه بعدی منطبق تقریباً بلافاصله برای شما ایجاد شود.
OpenAI کد Point-E را برای دسترسی عمومی رایگان در GitHub ارائه کرده است.
اکنون OpenAI، یکی از شرکتهای پیشرو در فضای هوش مصنوعی، و شرکتی که GPT و DALL-E را ایجاد کرده است، «Point-E» را منتشر کرد، «سیستمی برای تولید ابرهای نقطه سهبعدی از پیامهای پیچیده».
این بدان معنی است که هر تعداد سرمایه گذاری کد را دریافت می کند و تلاش می کند تا سیستم هایی بسازد که می تواند عملکردهای متن به سه بعدی از انواع مختلف را انجام دهد. این احتمال وجود دارد که برخی مدلهای آموزشی خود را توسعه دهند که میتواند کیفیت نتایج را بهبود بخشد یا بر حوزههای خاص مورد علاقه تمرکز کند.