دسترسی نداشتن به داده فارسی چالش اصلی توسعه هوش مصنوعی در ایران

۴مرداد ۱۴۰۳ ساعت ۱۲:۳۸ PM 406

مشکلات زیرساختی، محدودیت در دسترسی به داده‌ها و نبود چارچوب قانونی مشخص عمده چالش‌های مسیر توسعه هوش مصنوعی مولد در کشور است. متخصصان این حوزه با لحاظ این موارد، تامین، تجهیز و فراهم کردن شرایط مناسب برای فعالیت نیروی انسانی ماهر و متخصص را عاملی در پیشبرد این مسیر و کاهش نرخ مهاجرت این افراد عنوان کردند.

به گزارش پیوست، هوش مصنوعی مولد مانند هر فناوری دیگر هراسی را با ورود به جامعه با خود به همراه دارد. فارغ از جهت‌گیری افکار عمومی نسبت این پدیده، عقب نماندن از قطار توسعه آن، امری است که برای جوامع به یک ضرورت تبدیل شده است.

مشکلات زیرساختی و دسترسی به داده‌ها

مهران ضیابری، مدیرعامل ترگمان با اشاره به این موضوع که مهم‌ترین چالشی که در توسعه هوش مصنوعی با آن مواجهیم زیرساخت‌های پردازشی و زیرساخت‌های داده‌ای است؛ توسعه هوش مصنوعی در کشور را حول سه نیاز سخت‌افزاری، نیاز نرم‌افزاری و دادافزاری و در نهایت نیاز مغزافزاری تعریف کرد. او بیشترین چالش را متعلق به بخش زیرساخت‌های سخت‌افزاری، پردازشی و داده‌ای دانست و گفت: «نمی‌توان میان این حوزه‌ها تفاوتی قائل شد و یکی را نسبت به دیگری مهم‌تر دانست.»

مدیرعامل ترگمان اعلام کرد که در حال حاضر بیش از ۴۰ میلیارد توکن داده ترگمان اپن سورس شده است و به مرور نیز به این عدد افزوده خواهد شد. او در رابطه با چالش‌های جمع‌آوری، آماده‌سازی و برچسب‌گذاری داده‌ها گفت: «از این منظر مساله نداریم. در کشور امکان و توان گردآوری و برچسب‌گذاری و حتی دسترسی وجود دارد. هزینه‌ها هم منطقی و معقول است و فرآیند آنچنان پیچیده نیست. آن چیزی که به آن دسترسی نداریم دادگان عظیم دولتی و خصولتی است.»

دسترسی به داده‌های حاکمیتی

ضیابری در ادامه گفت: «دسترسی به داده‌های حاکمیتی اساسا به خاطر قوانین و قواعد معارضی که وجود دارد بسیار سخت شده است و تقریبا می‌توان گفت دسترسی به آنها امکان‌پذیر نیست. حتی برخی از داده‌ها مثل داده‌های کتابخانه ملی، داده‌های خبرگزاری‌ها و داده‌های وزارت ارشاد و سازمان‌ها که اساسا داده‌هایی است که در زمره داده‌های محرمانه قرار نمی‌گیرد، می‌توان با اتخاذ ساز و کارهایی که حق مالکیت نقض نشود در اختیار پژوهشگران قرار داد. برای داده‌های به نوعی محرمانه و داده‌هایی که یک مقدار امنیتی هستند هم ساز و کار اجرایی وجود دارد اما یک عزم حاکمیتی می‌خواهد که اجازه بهره‌برداری از این داده‌ها را ایجاد کند.»

ضیابری همچنین توسعه و پیشرفت هوش مصنوعی را مستلزم دسترسی به داده‌های صنعتی دانست.

محمدرضا معبودیان، رئیس کمیسیون هوش مصنوعی با قیاس مدل زبانی فالکون و شرایط کشور گفت: «ما اکنون با استناد به خوشبینانه‌ترین آمارها در کشور حدود یکصد GPU از نوع A100 داریم و درواقع برای ایجاد چنین مدل‌هایی از منظر زیرساخت با مشکل جدی مواجه هستیم و باید حتما مکانیسم اجاره GPU را از انواع ارائه‌دهندگان خدمات پردازشی بزرگ بین‌المللی مثل IBM و گوگل و آژور در دستور کار قرار دهیم.»

محمدرضا، معبودیان رئیس کمیسیون هوش مصنوعی

او در رابطه با تجربه موفق ترگمان در کشور گفت: «می‌توان گفت که این داده‌های عظیم از خزش وب فارسی ایجاد شده است که کار بسیار بزرگ، با رعایت استانداردهای لازم و قابل استفاده همگان است، اما نکته‌ای که وجود دارد این است که ما در حوزه داده فارسی نیاز داریم که داده‌های سازمانی و ملی یعنی تمام کتب، نشریات، قوانین و دستورالعمل‌ها، تا حتی زیرنویس همه فیلم‌ها و متن همه برنامه های رادیویی و حتی گزارشات کارشناسی سازمان‌های اجرایی، همگی و همه را به حفظ پروتکل‌های آزادرسانی داده‌ها به این مجموعه اضافه کنیم، که متاسفانه در این زمینه هم ما مشکلات فرهنگی و هم مشکلات زیرساختی فراوانی داریم.» معبودیان در بحث چالش‌های زیرساختی توسعه هوش مصنوعی مولد به اهمیت لایه گارد «Guard Layer» که اصطلاحا شرکت OpenAI به آن RLHM می‌گوید پرداخت.

او گفت: «این لایه از عملکرد هوش مصنوعی مولد محافظت می‌کند و به عنوان مثال اجازه نمی‌دهد هوش مصنوعی فرمول تهیه مواد مخدر را بسازد یا در مورد مسائل جنسیتی صحبت کند. حتی خیلی اوقات مشاهده کرده‌ایم که در پاسخ به سوالات اینچنینی هوش مصنوعی گفته است اجازه ندارد چنین محتوایی را ارائه دهد نه اینکه نمی‌داند.»

رئیس کمیسیون هوش مصنوعی اهمیت این لایه در توسعه هوش مصنوعی مولد برای سازمان‌ها و کسب‌وکارها را بیشتر دانست زیرا آنها باید به فراخور حال و هوای مشتریانشان و محدودیت‌هایی که در جامعه وجود دارد هوش مصنوعی را تنظیم کنند تا با محدودیت‌های سازمان‌های نظارتی و بازخورد نامناسب کاربران مواجه نشوند.

او رگ نکردن (RAG) (Retrieval-augmented generation) شرکت‌ها را یکی دیگر از چالش‌هایی که با آن مواجهیم بیان کرد. به این صورت که منبعی به بزرگی یک کتابخانه مشتمل بر چهار هزار کتاب در حوزه‌های مختلف فلسفوی یا روانشناسی و غیره وجود دارد. اگر کسی بخواهد سوالی بپرسد باید ابزار هوش مصنوعی مولد با توجه به آن منابع پاسخ را ارائه کند نه اینکه از تمام اطلاعات موجود در وب استفاده کند. باید منبع مشخص و در دامین مشخصی باشد.

معبودیان در ادامه گفت: «در واقع ما در زمینه زیرساخت، دادگان و ارائه محصولات بالغ که باید سازمان‌ها نسبت به این ارائه‌ها گارد داشته و رگ بزنند چالش داریم.»

داده‌های طلایی

بهروز مینایی بیدگلی، دبیر ستاد فناوری‌های هوش مصنوعی علاوه‌بر اینکه نیازمندی کشور به یک زیرساخت خیلی مفصل پردازشی را چالش این حوزه عنوان کرد در رابطه با چالش‌های مربوط به داده‌ها گفت: «داده‌های کتابخانه ملی، وزارت ارشاد، موسسات دولتی و حتی بخش خصوصی داده‌هایی است که اگر در اختیار LLMها قرار بگیرد می‌تواند در دقت و کیفیت پاسخگویی تحول ایجاد کند. این داده‌ها را در اختیار داریم که مانند طلایی است که آن را ذخیره کردیم و از آن استفاده‌ آنچنانی نمی‌کنیم. اما مهم‌تر از آن ساخت LLMها یا ایجاد مدل‌های زبانی‌ای است که مشکلات صنعت بورس یا سلامت را برطرف کند.»

بهروز مینایی بیدگلی، دبیر ستاد فناوری‌های هوش مصنوعی

او رسیدگی، توجه و پرداختن به این مدل‌های زبانی که به شکل خاص زیرساخت‌های پیشین را نمی‌خواهد و در حوزه‌های مختلف قابلیت استفاده و پاسخگویی را دارد با لحاظ هنجارهای جامعه بسیار مناسب و موثر دانست.

فیسبوک تلگرام گوگل پلاس لینکدین کلوب

نظرات کاربران
ارسال نظر

تاکنون نظری برای این مطلب ثبت نگردیده است

جست و جو

روزنامه نسیم

گزارش تصویری

اثر داروی فشار خون در جلوگیری از صرع
برخی از افراد پس از زنده ماندن از سکته مغزی به صرع مبتلا می شوند، زیرا آسیبی که متحمل شده اند باعث ا...

کاهش وزن بدون رژیم‌های مُد روز
نتایج تحقیقات مختلف نشان می دهد رژیم‌های محدودکننده که این روزها مُد شده، به کاهش وزن طولانی‌مدت کمک...

پرداخت وام ضروری ۳۰ میلیون تومانی به حساب ۵۱ هزار بازنشسته کشوری/ کارمزد وام ۴ درصد
معاون توسعه مدیریت و منابع صندوق بازنشستگی کشوری از واریز وام ضروری ۳۰ میلیون تومانی برای ۵۱ هزار و ...

مشارکت ۱۹ بانک در توزیع سود سهام عدالت
۱۹ بانک در توزیع مرحله سوم سود سهام عدالت سال مالی منتهی به ۲۹ اسفندماه ۱۴۰۱ مشارکت دارند.

بهترین انتخاب‌ها برای تغذیه سالم در طولانی‌ترین شب سال
شب یلدا، به‌عنوان یکی از آیین‌های کهن ایرانی، فرصتی است برای دورهمی‌های خانوادگی؛ این شب با خوراکی‌ه...

پربازدیدها
آخرین مطالب

پیوندهای مرتبط

یادداشت

یادداشت در رابطه با روز جهانی جلوگیری از خشونت علیه زنان
سازمان ملل متحد روز ۲۵نوامبر مصادف با چهارم آذر را روز بین‌المللی مبارزه با خشونت علیه زنان اعلام کرده‌است.

پیوندهای مرتبط

دسترسی نداشتن به داده فارسی چالش اصلی توسعه هوش مصنوعی در ایران

بازگشت رنگ قرمز به ماسال و رودسر/ بستری ۱۷۱ بیمار کرونایی

توقف فروش اینترنت حجمی

مطالبات صادقانه و بحق مردم از حرکات تخریب‌گرانه یک گروه جداست

ایران در مسیر بازسازی عراق همانند دیگر حوزه ها نقش سازنده ای دارد

دایی: این آقا هنرپیشه است و تخیلات خوبی دارد!

مردم گله مندند اما پای انقلاب و نظام ایستاده‌اند

حصارکشی به سبک آمریکایی

توزیع سموم شیمیایی از انبار شرکت خدمات حمایتی کشاورزی استان گیلان

اجرای عملیات روکش آسفالت جاده لاکان رشت

خیابانی در رشت به نام شهید استاد دکتر طهرانچی نامگذاری شد

پزشکیان: آنچه در جنگ ۱۲ روزه بدست آوریم ارزشمندتر از چیزی بود که از دست دادیم

داروهای تزریقی در ۴۵درصد نسخ تجویزی کشور!

حتی آب هم برای نوزاد تا ۶ ماهگی ممنوع است

استان گیلان قطب تولید برنج مرغوب در کشور

فناوری

سایت های خبری

فناوری

سایت های خبری

اقتصادی

سوءاستفاده دلالان در بازار برنج؛ فروش برنج پاکستانی‌ در بسته بندی ایرانی!

کلاهبرداری پرداخت وام با "آرم و عنوان بانک مرکزی"!

ارزبری قاچاق بیشتر از تولید داخل! /چرا سیگار گران‌تر از قیمت روی پاکت فروخته می‌شود؟

سیاسی

پزشکیان: آنچه در جنگ ۱۲ روزه بدست آوریم ارزشمندتر از چیزی بود که از دست دادیم

امیر سرلشکرموسوی: نیروهای مسلح ایران با تمام توان در برابر زورگویی ایستادگی کرد

ایرانیان همواره در برابر معماهای امنیتی نوآوری‌های خلاقانه دارند

پل ارتباطی

آدرس : رشت ،خیابان شهدا ( لاهیجان سابق) ،خیابان پاستور،جنب فروشگاه کاج

تلفن : ۰۱۳ ۳۳۸۵۵۰۰۳