تولید تمامنگاشتهای سهبعدی بیدرنگ با کمک هوش مصنوعی
یک روش تازه و تقریباً مستقیم با استفاده از هوش مصنوعی برای ساخت تمامنگاشتها (هولوگرامها) توسط یک تیم از محققان موسسه فناوری ماساچوست MIT ارائه شده است. در این روش از یک برنامه هوش مصنوعی استفاده شده است که در لپتاپهای معمولی که در دسترس عموم هستند نیز قابل اجرا است. از این برنامه در نمایش واقعیت مجازی و چاپگرهای سهبعدی میتوان بهره برد. بهعلاوه این روش میتواند فناوری تمامنگاری را در تلفنهای همراه هوشمند فعال کند. پیشبینی میشود که این فناوری امکان ورود تمام نگاشتها(هولوگرام) را به صورت تجاری به بازار فراهم کند.
فناوری 60 ساله تمامنگاری که با ظهور لیزر به عنوان یک منبع نور همدوس به واقعیت مبدل شد، یک روش کاملاً اپتیکی برای تولید تصاویر سهبعدی است. تا اواخر قرن پیش، چیدمان اپتیکی و استفاده از لیزر روش اصلی تولید تمامنگاشت بهحساب میآمد. در قرن حاضر به امید دستیابی به تمامنگاشتهای کاملاً سهبعدی، با کیفیت و متحرک، فناوری دیجیتال و رایانههای قدرتمند برای شبیهسازی اپتیکی، بهخدمت گرفته شدهاند و امکان ظهور تصاویر سهبعدی بدون چیدمان فیزیکی را فراهم کردهاند. البته این مسیر نیاز به ابررایانهها و محاسبات پیجیده دارد و همواره برای دستیابی به نتیجه مطلوب، با چالش مواجه بودهاست. تازهترین تحول الهام بخش این حوزه مربوط به ورود هوشمصنوعی به این عرصه است.
تولید هولوگرام با استفاده از رایانه
تمام نگاری تولید شده توسط رایانه از طریق شبیهسازی عددی پراش و تداخل قادر به تصویرسازی سهبعدی با وضوح زاویهای و فضایی بالا است.
نوعاً فرآیند تولید هولوگرام با استفاده از رایانه ناگزیر به استفاده از دستگاههای ابررایانه برای شبیهسازیهای فیزیکی مورد نیاز است. این فرآیند حتی با استفاده از یک ابررایانه، بسیار کند است و اغلب پاسخهای ضعیفی ارائه میدهد.
در مقایسه با روشهای قدیمی، روش تازهای که در دانشکده مهندسی برق و علوم کامپیوتر MIT ارائه شده، قادر است که رایانههای عمومی را برای ساخت تصاویر تمامنگاری سهبعدی به صورت بیدرنگ در حد میلیثانیه بهکار گیرد. لیانگ شی[1] نویسنده اصلی این مقاله، معتقد است که روش جدید با عنوان «تمامنگاری تانسوری» هدف را در دسترس قرار میدهد و میتواند باعث پیشرفت در تصاویر واقعیت مجازی(VR)[2] و چاپگرهای سهبعدی شود. او میگوید: «قبل از این همه فکر میکردند با سختافزارهای در دسترس مصرفکنندگان، امکان اجرای محاسبات تمامنگاری سهبعدی بهصورت بیدرنگ وجود ندارد. حتی از دههها قبل، مرتباً ادعا شدهاست نمایشگرهای تمامنگاشت تجاری حدوداً تا 10 سال آینده در دسترس خواهند بود!»
تفاوت تصویر عکاسی و تمامنگار نهایتاً در توانایی تمامنگار در رمزگشایی از درخشندگی و فاز هر موج نوری نهفته است. این قابلیت به تمامنگار امکان میدهد که تصویر زنده و واقعیتری از یک چشمانداز را که دارای اختلاف منظر و عمق است به نمایش بگذارد. برای اینکه یک تمامنگاشت به صورت اپتیکی گرفته شود، یک باریکه لیزر تقسیم میشود، نیمی از آن به نمونه تابیده میشود و نیمی از آن به عنوان فاز موج نور مرجع بهکار میرود. موج مرجع درک عمق را پدید میآورد. این نوع تمامنگاشتها که در میانه قرن بیستم گسترش یافت، بهصورت تصاویر ایستا بودند و توان دریافت حرکت را نداشتند، بنابراین این روش فقط یک نسخه چاپی ارائه میداد.
در این تصویر نمایش تجربی یک تصویر تمامنگاری دوبعدی و سهبعدی نشان داده شده است. عکس سمت چپ بر روی اسباببازی موش (مربع زرد) به صورت نزدیکتر به دوربین متمرکز شده است و عکس سمت چپ روی تقویم رومیزی (مربع آبی) کانونی شده است.
تمامنگاریهای تولید شده با رایانه، با شبیهسازی یک چیدمان اپتیکی برای گذر از این چالشها تولید شدهاند. از آنجا که هر نقطه از صحنه از عمق متفاوتی برخوردار است، نمیتوان یک عملیات مشترک را برای هر نقطه بهکاربرد. همین موضوع باعث افزایش قابل توجه پیچیدگی عملیات میشود.
برای اجرای این شبیهسازی توسط یک ابررایانه، ممکن است چندین دقیقه زمان برای تولید یک تصویر تمامنگاری نیاز باشد. الگوریتمهای موجود نیز مسئله را با دقت واقع گرایانهای مدلسازی نمیکنند. زیرا شبیهسازی طاقتفرسای پراش فرنل به صورت کامپیوتری، یک بده بستان آشکار بین کیفیت و زمان اجرا را رقم میزند که دسترسی به تمامنگاری پویا را غیرعملی میسازد.
گروه محققان MIT از یادگیری عمیق استفاده کرده و یک شبکه همگشتی[3] طراحی کردند که با استفاده از گروهی از تانسورها، از روش پردازش اطلاعات بصری انسانها تقلید میکند. آموزش یک شبکه عصبی نوعی به حجم زیادی از دادههای با کیفیت بالا نیاز دارد؛ در هوش مصنوعی به این دادهها، مجموعه دادههای آموزشی گفته میشود. گروه تحقیقاتی این کار، خود به جمعآوری دادههای آموزشی اقدام کرده است.
پایگاه داده کاربر، شامل 4000 جفت تصاویر تولید شده با رایانه است که هر کدام یک تصویر- شامل اطلاعات رنگ و عمق به ازای هر پیکسل- را با هولوگرام(تمامنگاشت) مربوط به آن هماهنگ کرده است. محققان، هولوگرامهای پایگاه داده را با صحنههایی شامل اشکال و رنگهای پیحیده و متنوع و با عمق پیکسلهایی که از پسزمینه تا جلوی تصویر بهطور مساوی توزیع شدهاند، ایجاد کردند.
محققان برای رفع گره مسئله، یک دسته جدید محاسبات مبتنی بر فیزیک را هم فراهم کردند. یک الگوریتم با مجموعه دادههای آموزشی واقعگرایانه محاسبات خود را بهینهسازی کرده و توانایی خود را برای تولید هولوگرام با موفقیت افزایش میدهد. عملکرد شبکه چندین مرتبه سریعتر از محاسبات مبتنی بر فیزیک است.
این روش امکان ساخت هولوگرام را در زمان چند میلی ثانیه از عکسهای دارای اطلاعات عمق فراهم میکند. اطلاعات عمق توسط تصاویر معمولی تولید شده توسط رایانه، فراهم و با چیدمان دوربینهای عکاسی چندگانه یا یک حسگر لیدار میتواند محاسبه شود. شبکه تانسور فشرده به حافظهای کمتر از 1 مگابایت نیاز دارد. که در مقایسه با دهها و صدها گیگابایتی که در تلفنهای همراه امروزی در دسترس هستند ناچیز است.
اعضای این تیم معتقدند این فناوری میتواند در واقعیت مجازی، مناظر واقعبینانهتری ارائه دهد و خستگی چشم و سایر عوارض جانبی استفاده طولانی مدت از هدستهای واقعیت مجازی را از بین ببرد. همچنین از این فناوری میتوان در نمایشگرهایی که قادر به مدولاسیون فاز امواج نور هستند استفاده کرد.
این راهکار مبتنی بر آموزش شبکه عصبی و دادههای هولوگرام فرنل، پتانسیل بهکارگیری تمامنگاری را در کاربردهایی مانند طراحی فراسطح، دستکاری میکروسکوپیک مبتنی بر انبرکهای صوتی و نوری، میکروسکوپ تمامنگار و چاپگرهای سهبعدی حجمی (با هدف چاپ سهبعدی با یک نوبت نوردهی) فراهم میکند. مقاله این پژوهش در Nature به چاپ رسیده است.
این روش یک جهش بزرگ در فناوری بهحساب میرود و میتواند نگرش مردم را نسبت به تمامنگاری بهطور کامل تغییر دهد. شاید اغراقآمیز بهنظر برسد اما محققان آن میگویند که احساس میکنند شبکههای عصبی برای اینکار متولد شدهاند.
منابع:
https://www.photonics.com/Articles/AI_Aids_in_Generation_of_Real-Time_3D_Holograms/a66785
https://www.weforum.org/agenda/2021/03/ai-artificial-intelligence-3d-holograms-breakthrough/
مقاله مرجع:
https://www.nature.com/articles/s41586-020-03152-0
[1] Liang Shi
[2] Virtual Reality
[3] Convolutional network