رفتن به نوشته‌ها

سیستم Point-E OpenAI « Fabbaloo

از طريق OpenAI، ArXiv (PDF) و GitHub



منبع

مدل‌های سه‌بعدی خام به‌طور خودکار از پیام‌های متنی مربوطه تولید می‌شوند [Source: ArXiv]

داستان گمانه‌زنی من در ژوئن گذشته یک مرحله فراتر از نرم‌افزار هوش مصنوعی «متن به تصویر» را مورد بحث قرار داد و به قابلیت پیشرفته‌تری «متن به سه‌بعدی» فکر کرد. نمی دانستم که تنها چند ماه بعد در واقعیت ظاهر می شود. هفته گذشته هوش مصنوعی Luma ابزاری را منتشر کرد که به معنای واقعی کلمه می تواند مدل های سه بعدی قابل چاپ سه بعدی را از یک پیام متنی تولید کند.

نکته: “ابر نقطه” مجموعه ای از نقاط در فضای سه بعدی است که یک شی را نشان می دهد. آنها را می توان به راحتی با بسیاری از ابزارهای نرم افزاری موجود به یک مدل مش مانند فرمت STL تبدیل کرد.

با این وجود، این یک گام فوق العاده به جلو است.

دو مدل آموزشی ارائه شده است. یکی درخواست های متنی را می پذیرد و مدل های سه بعدی خام تولید می کند. دیگری تصاویر را به عنوان ورودی می پذیرد و سعی می کند از آنها یک مدل سه بعدی بسازد. همچنین یک مدل رگرسیون SDF برای تبدیل ابرهای نقطه تولید شده به مش وجود دارد که می تواند در نرم افزار CAD استفاده شود.

متن به 3 بعدی قبلاً انجام شده است، اما پردازش مورد نیاز برای تکمیل کار، حتی در تجهیزات بزرگ، زمان بسیار زیادی طول می کشد. سیستم جدید Point-E الگوریتم جدیدی دارد که بسیار سریعتر است. طبق مقاله تحقیقاتی همراه، سرعت “دو مرتبه قدر” سریعتر است. با این حال، نویسندگان مقاله اذعان می‌کنند که نتایج «از نظر کیفیت نمونه از سطح پیشرفته‌تر نیست».

با سرعتی که این فناوری در حال تغییر است، ممکن است ماه آینده باشد.

با نگاهی به نتایج نمونه، می‌توانیم ببینیم که آنها واقعاً خام هستند، اما اشکال و رنگ‌های مناسب قابل تشخیص هستند. اگر از نزدیک نگاه کنید، می توانید ببینید که اشیاء سه بعدی در واقع مجموعه ای از نقاط هستند که برای ساختن یک ساختار جامد برای اهداف مشاهده گسترش یافته اند.

همه چیز در متن به سرعت به سمت فضای هوش مصنوعی مدل سه بعدی پیش می رود.

نحوه عملکرد این سیستم ها ممکن است گیج کننده باشد، اما یک راه ساده برای درک آنها مقایسه آن با چیزی است که همه دیده اند: تکمیل خودکار جستجوی Google. همانطور که شما تایپ می کنید، سیستم سعی می کند حروف و کلمات زیر را بر اساس آموزش قبلی پیش بینی کند.

“یک صندلی چوبی ویکتوریایی پرآذین، با کوسن مخملی”

در سیستم‌های تولید تصویر، آنها فقط با یک تصویر نویز شروع می‌کنند و بارها و بارها تا زمانی که یک تصویر ظاهر شود، پیکسل‌ها را پیش‌بینی می‌کنند. این فرآیند “Diffusion” نامیده می شود و اغلب نتایج می توانند به طور فوق العاده دقیق و روشنگری باشند. Point-E همین کار را می کند، مگر در حالت سه بعدی.

این سیستم مدل سه بعدی را به روشی مشابه آنچه برای ایجاد تصاویر مصنوعی در چندین سیستم محبوب مانند MidJourney، DALL-E و Stable Diffusion انجام می شود، تولید می کند.

ایده در اینجا این است که کاربر می‌تواند درخواست‌های متنی ساده (یک «اعلان») برای به دست آوردن یک مدل قابل چاپ سه بعدی یا مدلی که می‌تواند به عنوان یک دارایی سه بعدی در یک بازی استفاده شود، وارد کند. یک مثال سریع ممکن است این باشد:

این به کجا می رود؟ تنها می توان انتظار داشت که این سیستم ها به تدریج از نظر کیفیت، سرعت و کارایی افزایش پیدا کنند. ممکن است واقعاً روزی در آینده نزدیک باشد که بتوانید یک قطعه دقیق را بخواهید و یک مدل سه بعدی منطبق تقریباً بلافاصله برای شما ایجاد شود.

OpenAI کد Point-E را برای دسترسی عمومی رایگان در GitHub ارائه کرده است.

اکنون OpenAI، یکی از شرکت‌های پیشرو در فضای هوش مصنوعی، و شرکتی که GPT و DALL-E را ایجاد کرده است، «Point-E» را منتشر کرد، «سیستمی برای تولید ابرهای نقطه سه‌بعدی از پیام‌های پیچیده».

این بدان معنی است که هر تعداد سرمایه گذاری کد را دریافت می کند و تلاش می کند تا سیستم هایی بسازد که می تواند عملکردهای متن به سه بعدی از انواع مختلف را انجام دهد. این احتمال وجود دارد که برخی مدل‌های آموزشی خود را توسعه دهند که می‌تواند کیفیت نتایج را بهبود بخشد یا بر حوزه‌های خاص مورد علاقه تمرکز کند.

منتشر شده در اخبار پرینتر و چاپ سه بعدی