مشکلات زیرساختی، محدودیت در دسترسی به دادهها و نبود چارچوب قانونی مشخص عمده چالشهای مسیر توسعه هوش مصنوعی مولد در کشور است. متخصصان این حوزه با لحاظ این موارد، تامین، تجهیز و فراهم کردن شرایط مناسب برای فعالیت نیروی انسانی ماهر و متخصص را عاملی در پیشبرد این مسیر و کاهش نرخ مهاجرت این افراد عنوان کردند.
به گزارش پیوست، هوش مصنوعی مولد مانند هر
فناوری دیگر هراسی را با ورود به جامعه با خود به همراه دارد. فارغ از
جهتگیری افکار عمومی نسبت این پدیده، عقب نماندن از قطار توسعه آن، امری
است که برای جوامع به یک ضرورت تبدیل شده است.
مشکلات زیرساختی و دسترسی به دادهها
مهران ضیابری، مدیرعامل ترگمان با اشاره به
این موضوع که مهمترین چالشی که در توسعه هوش مصنوعی با آن مواجهیم
زیرساختهای پردازشی و زیرساختهای دادهای است؛ توسعه هوش مصنوعی در کشور
را حول سه نیاز سختافزاری، نیاز نرمافزاری و دادافزاری و در نهایت نیاز
مغزافزاری تعریف کرد. او بیشترین چالش را متعلق به بخش زیرساختهای
سختافزاری، پردازشی و دادهای دانست و گفت: «نمیتوان میان این حوزهها
تفاوتی قائل شد و یکی را نسبت به دیگری مهمتر دانست.»
مدیرعامل ترگمان اعلام کرد که در حال حاضر
بیش از ۴۰ میلیارد توکن داده ترگمان اپن سورس شده است و به مرور نیز به این
عدد افزوده خواهد شد. او در رابطه با چالشهای جمعآوری، آمادهسازی و
برچسبگذاری دادهها گفت: «از این منظر مساله نداریم. در کشور امکان و توان
گردآوری و برچسبگذاری و حتی دسترسی وجود دارد. هزینهها هم منطقی و معقول
است و فرآیند آنچنان پیچیده نیست. آن چیزی که به آن دسترسی نداریم دادگان
عظیم دولتی و خصولتی است.»
دسترسی به دادههای حاکمیتی
ضیابری در ادامه گفت: «دسترسی به دادههای
حاکمیتی اساسا به خاطر قوانین و قواعد معارضی که وجود دارد بسیار سخت شده
است و تقریبا میتوان گفت دسترسی به آنها امکانپذیر نیست. حتی برخی از
دادهها مثل دادههای کتابخانه ملی، دادههای خبرگزاریها و دادههای وزارت
ارشاد و سازمانها که اساسا دادههایی است که در زمره دادههای محرمانه
قرار نمیگیرد، میتوان با اتخاذ ساز و کارهایی که حق مالکیت نقض نشود در
اختیار پژوهشگران قرار داد. برای دادههای به نوعی محرمانه و دادههایی که
یک مقدار امنیتی هستند هم ساز و کار اجرایی وجود دارد اما یک عزم حاکمیتی
میخواهد که اجازه بهرهبرداری از این دادهها را ایجاد کند.»
ضیابری همچنین توسعه و پیشرفت هوش مصنوعی را مستلزم دسترسی به دادههای صنعتی دانست.
محمدرضا معبودیان، رئیس کمیسیون هوش مصنوعی
با قیاس مدل زبانی فالکون و شرایط کشور گفت: «ما اکنون با استناد به
خوشبینانهترین آمارها در کشور حدود یکصد GPU از نوع A100 داریم و درواقع
برای ایجاد چنین مدلهایی از منظر زیرساخت با مشکل جدی مواجه هستیم و باید
حتما مکانیسم اجاره GPU را از انواع ارائهدهندگان خدمات پردازشی بزرگ
بینالمللی مثل IBM و گوگل و آژور در دستور کار قرار دهیم.»
محمدرضا، معبودیان رئیس کمیسیون هوش مصنوعی
او در رابطه با تجربه موفق ترگمان در کشور
گفت: «میتوان گفت که این دادههای عظیم از خزش وب فارسی ایجاد شده است که
کار بسیار بزرگ، با رعایت استانداردهای لازم و قابل استفاده همگان است، اما
نکتهای که وجود دارد این است که ما در حوزه داده فارسی نیاز داریم که
دادههای سازمانی و ملی یعنی تمام کتب، نشریات، قوانین و دستورالعملها، تا
حتی زیرنویس همه فیلمها و متن همه برنامه های رادیویی و حتی گزارشات
کارشناسی سازمانهای اجرایی، همگی و همه را به حفظ پروتکلهای آزادرسانی
دادهها به این مجموعه اضافه کنیم، که متاسفانه در این زمینه هم ما مشکلات
فرهنگی و هم مشکلات زیرساختی فراوانی داریم.» معبودیان در بحث چالشهای
زیرساختی توسعه هوش مصنوعی مولد به اهمیت لایه گارد «Guard Layer» که
اصطلاحا شرکت OpenAI به آن RLHM میگوید پرداخت.
او گفت: «این لایه از عملکرد هوش مصنوعی
مولد محافظت میکند و به عنوان مثال اجازه نمیدهد هوش مصنوعی فرمول تهیه
مواد مخدر را بسازد یا در مورد مسائل جنسیتی صحبت کند. حتی خیلی اوقات
مشاهده کردهایم که در پاسخ به سوالات اینچنینی هوش مصنوعی گفته است اجازه
ندارد چنین محتوایی را ارائه دهد نه اینکه نمیداند.»
رئیس کمیسیون هوش مصنوعی اهمیت این لایه در
توسعه هوش مصنوعی مولد برای سازمانها و کسبوکارها را بیشتر دانست زیرا
آنها باید به فراخور حال و هوای مشتریانشان و محدودیتهایی که در جامعه
وجود دارد هوش مصنوعی را تنظیم کنند تا با محدودیتهای سازمانهای نظارتی و
بازخورد نامناسب کاربران مواجه نشوند.
او رگ نکردن (RAG) (Retrieval-augmented
generation) شرکتها را یکی دیگر از چالشهایی که با آن مواجهیم بیان کرد.
به این صورت که منبعی به بزرگی یک کتابخانه مشتمل بر چهار هزار کتاب در
حوزههای مختلف فلسفوی یا روانشناسی و غیره وجود دارد. اگر کسی بخواهد
سوالی بپرسد باید ابزار هوش مصنوعی مولد با توجه به آن منابع پاسخ را ارائه
کند نه اینکه از تمام اطلاعات موجود در وب استفاده کند. باید منبع مشخص و
در دامین مشخصی باشد.
معبودیان در ادامه گفت: «در واقع ما در
زمینه زیرساخت، دادگان و ارائه محصولات بالغ که باید سازمانها نسبت به این
ارائهها گارد داشته و رگ بزنند چالش داریم.»
دادههای طلایی
بهروز مینایی بیدگلی، دبیر ستاد فناوریهای
هوش مصنوعی علاوهبر اینکه نیازمندی کشور به یک زیرساخت خیلی مفصل پردازشی
را چالش این حوزه عنوان کرد در رابطه با چالشهای مربوط به دادهها گفت:
«دادههای کتابخانه ملی، وزارت ارشاد، موسسات دولتی و حتی بخش خصوصی
دادههایی است که اگر در اختیار LLMها قرار بگیرد میتواند در دقت و کیفیت
پاسخگویی تحول ایجاد کند. این دادهها را در اختیار داریم که مانند طلایی
است که آن را ذخیره کردیم و از آن استفاده آنچنانی نمیکنیم. اما مهمتر
از آن ساخت LLMها یا ایجاد مدلهای زبانیای است که مشکلات صنعت بورس یا
سلامت را برطرف کند.»
بهروز مینایی بیدگلی، دبیر ستاد فناوریهای هوش مصنوعی
او رسیدگی، توجه و پرداختن به این مدلهای
زبانی که به شکل خاص زیرساختهای پیشین را نمیخواهد و در حوزههای مختلف
قابلیت استفاده و پاسخگویی را دارد با لحاظ هنجارهای جامعه بسیار مناسب و
موثر دانست.