دسترسی نداشتن به داده فارسی چالش اصلی توسعه هوش مصنوعی در ایران

۴مرداد ۱۴۰۳ ساعت ۱۲:۳۸ PM 165

دسترسی نداشتن به داده فارسی چالش اصلی توسعه هوش مصنوعی در ایران

مشکلات زیرساختی، محدودیت در دسترسی به داده‌ها و نبود چارچوب قانونی مشخص عمده چالش‌های مسیر توسعه هوش مصنوعی مولد در کشور است. متخصصان این حوزه با لحاظ این موارد، تامین، تجهیز و فراهم کردن شرایط مناسب برای فعالیت نیروی انسانی ماهر و متخصص را عاملی در پیشبرد این مسیر و کاهش نرخ مهاجرت این افراد عنوان کردند.

به گزارش پیوست، هوش مصنوعی مولد مانند هر فناوری دیگر هراسی را با ورود به جامعه با خود به همراه دارد. فارغ از جهت‌گیری افکار عمومی نسبت این پدیده، عقب نماندن از قطار توسعه آن، امری است که برای جوامع به یک ضرورت تبدیل شده است.

مشکلات زیرساختی و دسترسی به داده‌ها

مهران ضیابری، مدیرعامل ترگمان با اشاره به این موضوع که مهم‌ترین چالشی که در توسعه هوش مصنوعی با آن مواجهیم زیرساخت‌های پردازشی و زیرساخت‌های داده‌ای است؛ توسعه هوش مصنوعی در کشور را حول سه نیاز سخت‌افزاری، نیاز نرم‌افزاری و دادافزاری و در نهایت نیاز مغزافزاری تعریف کرد. او بیشترین چالش را متعلق به بخش زیرساخت‌های سخت‌افزاری، پردازشی و داده‌ای دانست و گفت: «نمی‌توان میان این حوزه‌ها تفاوتی قائل شد و یکی را نسبت به دیگری مهم‌تر دانست.»

مدیرعامل ترگمان اعلام کرد که در حال حاضر بیش از ۴۰ میلیارد توکن داده ترگمان اپن سورس شده است و به مرور نیز به این عدد افزوده خواهد شد. او در رابطه با چالش‌های جمع‌آوری، آماده‌سازی و برچسب‌گذاری داده‌ها گفت: «از این منظر مساله نداریم. در کشور امکان و توان گردآوری و برچسب‌گذاری و حتی دسترسی وجود دارد. هزینه‌ها هم منطقی و معقول است و فرآیند آنچنان پیچیده نیست. آن چیزی که به آن دسترسی نداریم دادگان عظیم دولتی و خصولتی است.»

دسترسی به داده‌های حاکمیتی

ضیابری در ادامه گفت: «دسترسی به داده‌های حاکمیتی اساسا به خاطر قوانین و قواعد معارضی که وجود دارد بسیار سخت شده است و تقریبا می‌توان گفت دسترسی به آنها امکان‌پذیر نیست. حتی برخی از داده‌ها مثل داده‌های کتابخانه ملی، داده‌های خبرگزاری‌ها و داده‌های وزارت ارشاد و سازمان‌ها که اساسا داده‌هایی است که در زمره داده‌های محرمانه قرار نمی‌گیرد، می‌توان با اتخاذ ساز و کارهایی که حق مالکیت نقض نشود در اختیار پژوهشگران قرار داد. برای داده‌های به نوعی محرمانه و داده‌هایی که یک مقدار امنیتی هستند هم ساز و کار اجرایی وجود دارد اما یک عزم حاکمیتی می‌خواهد که اجازه بهره‌برداری از این داده‌ها را ایجاد کند.»

ضیابری همچنین توسعه و پیشرفت هوش مصنوعی را مستلزم دسترسی به داده‌های صنعتی دانست.

محمدرضا معبودیان، رئیس کمیسیون هوش مصنوعی با قیاس مدل زبانی فالکون و شرایط کشور گفت: «ما اکنون با استناد به خوشبینانه‌ترین آمارها در کشور حدود یکصد GPU از نوع A100 داریم و درواقع برای ایجاد چنین مدل‌هایی از منظر زیرساخت با مشکل جدی مواجه هستیم و باید حتما مکانیسم اجاره GPU را از انواع ارائه‌دهندگان خدمات پردازشی بزرگ بین‌المللی مثل IBM و گوگل و آژور در دستور کار قرار دهیم.»

محمدرضا، معبودیان رئیس کمیسیون هوش مصنوعی

او در رابطه با تجربه موفق ترگمان در کشور گفت: «می‌توان گفت که این داده‌های عظیم از خزش وب فارسی ایجاد شده است که کار بسیار بزرگ، با رعایت استانداردهای لازم و قابل استفاده همگان است، اما نکته‌ای که وجود دارد این است که ما در حوزه داده فارسی نیاز داریم که داده‌های سازمانی و ملی یعنی تمام کتب، نشریات، قوانین و دستورالعمل‌ها، تا حتی زیرنویس همه فیلم‌ها و متن همه برنامه های رادیویی و حتی گزارشات کارشناسی سازمان‌های اجرایی، همگی و همه را به حفظ پروتکل‌های آزادرسانی داده‌ها به این مجموعه اضافه کنیم، که متاسفانه در این زمینه هم ما مشکلات فرهنگی و هم مشکلات زیرساختی فراوانی داریم.» معبودیان در بحث چالش‌های زیرساختی توسعه هوش مصنوعی مولد به اهمیت لایه گارد «Guard Layer» که اصطلاحا شرکت OpenAI به آن RLHM می‌گوید پرداخت.

او گفت: «این لایه از عملکرد هوش مصنوعی مولد محافظت می‌کند و به عنوان مثال اجازه نمی‌دهد هوش مصنوعی فرمول تهیه مواد مخدر را بسازد یا در مورد مسائل جنسیتی صحبت کند. حتی خیلی اوقات مشاهده کرده‌ایم که در پاسخ به سوالات اینچنینی هوش مصنوعی گفته است اجازه ندارد چنین محتوایی را ارائه دهد نه اینکه نمی‌داند.»

رئیس کمیسیون هوش مصنوعی اهمیت این لایه در توسعه هوش مصنوعی مولد برای سازمان‌ها و کسب‌وکارها را بیشتر دانست زیرا آنها باید به فراخور حال و هوای مشتریانشان و محدودیت‌هایی که در جامعه وجود دارد هوش مصنوعی را تنظیم کنند تا با محدودیت‌های سازمان‌های نظارتی و بازخورد نامناسب کاربران مواجه نشوند.

او رگ نکردن (RAG) (Retrieval-augmented generation) شرکت‌ها را یکی دیگر از چالش‌هایی که با آن مواجهیم بیان کرد. به این صورت که منبعی به بزرگی یک کتابخانه مشتمل بر چهار هزار کتاب در حوزه‌های مختلف فلسفوی یا روانشناسی و غیره وجود دارد. اگر کسی بخواهد سوالی بپرسد باید ابزار هوش مصنوعی مولد با توجه به آن منابع پاسخ را ارائه کند نه اینکه از تمام اطلاعات موجود در وب استفاده کند. باید منبع مشخص و در دامین مشخصی باشد.

معبودیان در ادامه گفت: «در واقع ما در زمینه زیرساخت، دادگان و ارائه محصولات بالغ که باید سازمان‌ها نسبت به این ارائه‌ها گارد داشته و رگ بزنند چالش داریم.»

داده‌های طلایی

بهروز مینایی بیدگلی، دبیر ستاد فناوری‌های هوش مصنوعی علاوه‌بر اینکه نیازمندی کشور به یک زیرساخت خیلی مفصل پردازشی را چالش این حوزه عنوان کرد در رابطه با چالش‌های مربوط به داده‌ها گفت: «داده‌های کتابخانه ملی، وزارت ارشاد، موسسات دولتی و حتی بخش خصوصی داده‌هایی است که اگر در اختیار LLMها قرار بگیرد می‌تواند در دقت و کیفیت پاسخگویی تحول ایجاد کند. این داده‌ها را در اختیار داریم که مانند طلایی است که آن را ذخیره کردیم و از آن استفاده‌ آنچنانی نمی‌کنیم. اما مهم‌تر از آن ساخت LLMها یا ایجاد مدل‌های زبانی‌ای است که مشکلات صنعت بورس یا سلامت را برطرف کند.»

بهروز مینایی بیدگلی، دبیر ستاد فناوری‌های هوش مصنوعی

او رسیدگی، توجه و پرداختن به این مدل‌های زبانی که به شکل خاص زیرساخت‌های پیشین را نمی‌خواهد و در حوزه‌های مختلف قابلیت استفاده و پاسخگویی را دارد با لحاظ هنجارهای جامعه بسیار مناسب و موثر دانست.

تاکنون نظری برای این مطلب ثبت نگردیده است
جست و جو
روزنامه نسیم
گزارش تصویری
پیوندهای مرتبط