شنبه 17 خرداد 1404

بومی‌سازی زیرساخت هوش مصنوعی در پروژه سکوی ملی

  تاريخ:هفدهم خرداد 1404 ساعت 14:39   |     کد : 304232   |     مشاهده: 22
مدیر تیم پلتفرم سکوی ملی هوش مصنوعی از طراحی و پیاده‌سازی زیرساختی بومی برای مدیریت منابع محدود پردازشی خبر داد و گفت: در شرایطی که GPU، CPU و فضای ذخیره‌سازی با محدودیت روبه‌رو هستند، با طراحی یک لایه واسط بین سخت‌افزار و لایه اجرایی، امکان بهره‌برداری حداکثری از این منابع را فراهم کرده‌ایم. به گفته وی، این زیرساخت سه‌لایه با استانداردهای بین‌المللی رقابت‌پذیر بوده و آماده همکاری با مجموعه‌های علاقه‌مند است.

به گزارش ایسنا، جمال امیدی امروز در نشست فعالان حوزه هوش مصنوعی به تشریح نحوه طراحی زیرساخت این سکو پرداخت و با اشاره به محدود بودن منابع سخت‌افزاری نظیر GPU، CPU و فضای ذخیره‌سازی، گفت: اگر این منابع محدود به‌صورت عادی و عمومی مورد استفاده قرار می‌گرفتند، کارایی لازم را ایجاد نمی‌کردند. به همین دلیل تصمیم گرفتیم لایه‌ای واسط بین لایه اجرایی سکو و سخت‌افزارهای موجود طراحی کنیم تا بیشترین بهره‌وری ممکن را از این منابع فراهم کنیم.

وی با اشاره به تجربیات پیشین در توسعه سیستم‌های مقیاس‌پذیر، افزود: هدف این بود که منابع محدود داخلی و ظرفیت‌های بیرونی را در یک ساختار منسجم و ترتیبی استفاده کنیم. در صنعت نیز با چالش‌هایی مشابه مواجه بودیم که بررسی و تحلیل آنها در طراحی این ساختار لحاظ شده است.

مدیر تیم پلتفرم سکوی هوش مصنوعی با تاکید بر اینکه منابع پردازشی نظیر GPU، CPU و فضای ذخیره‌سازی را تحت عنوان کلی «کامپیوتر» در نظر گرفتیم، خاطر نشان کرد: تخمین ما این است که بالغ بر ۳۰ میلیارد تومان تجهیزات در این حوزه نیاز است. اما هیچ‌یک از زیرساخت‌های فعلی آمادگی لازم برای پشتیبانی از چنین ساختاری را ندارند. ما باید بتوانیم به‌صورت مستقل، چندصد گیگابایت داده را با سرعت بالا تغذیه و پردازش کنیم. شبکه نیز باید توان این حجم را داشته باشد.

وی یکی از مسائل اساسی را انتخاب سیستم‌عامل مینیمال و بهینه برای استفاده از سخت‌افزارها دانست و یادآور شد: ما سیستم‌عاملی بسیار سبک و کم‌ حجم را انتخاب کردیم که به‌طور گسترده در دنیا شناخته‌شده است و با هدف مدیریت دقیق منابع سخت‌افزاری، تغییرات سیستم از یک مرکز کنترل واحد به آن ارجاع داده می‌شود.

این فعال توسعه‌دهنده زیر ساخت‌های هوش مصنوعی ادامه داد: برای نمونه در یک فرایند یادگیری ماشین توزیع‌شده، ممکن است هزاران پروسه هم‌زمان روی حجم زیادی از داده فعالیت داشته باشند. زمان‌بندی و توزیع این تسک‌ها روی سخت‌افزار، نیازمند یک لایه استاندارد و تخصصی است که در زیرساخت معمولی قابل اجرا نیست. ازاین‌رو از ابزارهایی بهره گرفتیم که کارایی بالا در مدیریت توزیع و هماهنگی وظایف داشته باشند.

وی همچنین به برخی راهکارهای مرسوم مانند SLURM اشاره کرد و گفت: با اینکه ابزارهایی مثل «اسلار» در پروژه‌های بین‌المللی مورد استفاده قرار می‌گیرند، اما با زیرساخت‌های مدرن سازگار نیستند. ما تنها تجربه قبلی در استفاده از اسلار را بررسی کرده و ساختار مشابهی را به سیستم‌عامل خود افزودیم.

این فعال فناور با بیان اینکه این زیرساخت اکنون در سه لایه اصلی طراحی شده و آماده بهره‌برداری است، توضیح داد: شبکه‌ای مبتنی بر RDMA و نسخه دوم RoCE برای ارتباط سریع بین GPUها را در نظر گرفته‌ایم. همچنین یک شبکه ذخیره‌سازی سریع مبتنی بر Ceph برای تغذیه پرسرعت مدل‌های هوش مصنوعی در نظر گرفته شده است.

وی چالش ذخیره‌سازی را یکی از مسائل کلیدی در یادگیری عمیق دانست و گفت: در پروژه‌های یادگیری عمیق، نیاز به دسترسی هم‌زمان به حجم عظیمی از داده وجود دارد. در اغلب سیستم‌های ذخیره‌سازی رایج، اگر یک فرآیند به فایلی دسترسی پیدا کند، سایر فرآیندها نمی‌توانند به‌صورت هم‌زمان از آن استفاده کنند. به همین دلیل، در طراحی این ساختار لازم است امکان پردازش هم‌زمان و انتقال موازی داده‌ها با هزینه‌ای مقرون‌به‌صرفه پیش‌بینی شود.

وی اضافه کرد: ما نمی‌توانیم در این مقیاس از ذخیره‌سازی‌های تجاری گران‌قیمت استفاده کنیم. بنابراین به‌جای خرید تجهیزات گران‌قیمت، از راه‌حل‌های تعریف‌شده و دیفایند استفاده کردیم که هزینه کمتر و بهره‌وری بالاتری دارد.

امیدی با اشاره به دو ویژگی کلیدی در لایه پردازش، گفت: یکی از این ویژگی‌ها، قابلیت کار با مدل‌های بزرگ مبتنی بر دیتابیس است، به‌طوری‌که امکان تقسیم مدل روی چندین GPU فراهم شود. برای مدل‌هایی با پارامترهای بسیار بالا نمی‌توان آن‌ها را روی یک یا دو GPU اجرا کرد و باید بخش‌های مختلف آن روی چندین پردازنده گرافیکی توزیع شوند.

مدیر تیم پلتفرم سکوی ملی هوش مصنوعی با اشاره به زیرساخت‌های مشابه بین‌المللی، گفت: ما این ساختار را با زیرساخت‌های آمریکایی و همچنین پلتفرم‌های شرکت‌هایی چون علی‌بابا و هوآوی مقایسه کردیم. خوشبختانه نسخه تولیدی ما در بیشتر شاخص‌ها قابلیت رقابت با سرویس‌های مشابه را دارد.

امیدی خاطرنشان کرد: اگر دوستانی در کشور تجربه‌های مشابه دارند، با آغوش باز از آن‌ها استقبال می‌کنیم. هدف ما تکرار کارهای قبلی نیست. هرچه سریع‌تر و با هزینه کمتر به نتیجه برسیم، به نفع کشور است. زیرساختی که طراحی کرده‌ایم در حال حاضر قابل پیاده‌سازی است و برای همکاری با مجموعه‌های علاقه‌مند آماده‌ایم.

http://sanatnews.ir/News/1/304232
Share

آدرس ايميل شما:
آدرس ايميل دريافت کنندگان
 



کليه حقوق محفوظ و متعلق به پايگاه اطلاع رسانی صنعت نيوز ميباشد
نقل مطالب و اخبار با ذکر منبع بلامانع است