هوش مصنوعی تولیدی (Generative AI) ، با کاربردهای گسترده خود در حوزههای مختلف، به عنوان یک فناوری همه کاره، تحولات دیجیتال را به سمت افقهای جدید سوق میدهد.
این فناوری قدرتمند قادر است محتواهای جدید و خلاقانهای مانند تصاویر، متن، موسیقی و حتی ویدیو را تولید کند. با استفاده از هوش مصنوعی تولیدی، دیگر نیازی به صرف زمان طولانی برای خلق آثار هنری یا تولید محتوا نیست. این ابزارها میتوانند در عرض چند ثانیه، ایدههای شما را به واقعیت تبدیل کنند.
تأثیر هوش مصنوعی تولیدی بر صنایع مختلف بسیار گسترده است و به زودی شاهد تحولات شگرفی در زمینههای گوناگون خواهیم بود. از هنر و طراحی گرفته تا تولید محتوا و حتی پزشکی، هوش مصنوعی مولد پتانسیل آن را دارد که شیوه زندگی و کار ما را به طور کامل متحول کند. خوشبختانه، امروزه ابزارهای رایگان متعددی در دسترس هستند که به هر کسی امکان میدهد تا از قدرت هوش مصنوعی تولیدی بهرهمند شود.
قابلیتهای شگفتانگیز AI Generative Fill در فتوشاپ و Midjourney حقیقتاً ما را متعجب ساختهاند. اما، هوش مصنوعی تولیدی دقیقاً چیست و چگونه باعث این همه نوآوری سریع شده است؟
در این مقاله، ما به بررسی مفهوم هوش مصنوعی تولیدی خواهیم پرداخت و اینکه چگونه این تکنولوژی در حال بازنویسی قواعد بازی در صنایع مختلف، از تولید محتوا گرفته تا طراحی محصول، پزشکی و … است. همچنین، اهمیت استفاده از این فناوری در دنیای امروز را مورد کاوش قرار خواهیم داد. از آنجایی که هوش مصنوعی تولیدی نقش عمدهای در شکلدهی آیندهی ما دارد، درک عمیقتر این فناوری و کاربردهای آن اهمیتی حیاتی دارد. برای آگاهی بیشتر، تا انتها با ما همراه باشید.
هوش مصنوعی تولیدی چیست؟
هوش مصنوعی تولیدی همانطور که از نامش پیداست، نوعی از فناوری AI است که میتواند بر اساس دادههایی که روی آنها آموزش دیده است، محتوای جدیدی تولید کند. این فناوری قادر است متون، تصاویر، صداها، ویدئوها و دادههای مصنوعی را تولید کند. هوش مصنوعی تولیدی میتواند طیف وسیعی از خروجیها را بر اساس ورودیهای کاربر یا آنچه که ما دستورالعمل یا Prompt مینامیم، تولید کند. اساساً، هوش مصنوعی تولیدی یک زیرشاخه از یادگیری ماشین است که میتواند دادههای جدیدی را از یک مجموعه داده موجود ایجاد کند.
اگر مدل AI روی حجم زیادی از متون آموزش دیده باشد، میتواند ترکیبهای جدیدی از متون، که بسیار طبیعی به نظر میرسند را تولید کند. هرچه دادهها بیشتر باشند، خروجی بهتر خواهد بود. اگر مجموعه داده قبل از آموزش پاکسازی شده باشد، احتمالاً پاسخهای دقیقتری دریافت خواهید کرد. همچنین، اگر مدلی را با مجموعه بزرگی از تصاویر همراه با برچسبگذاری تصاویر، عنوانها و نمونههای بصری فراوان آموزش داده باشید، مدل هوش مصنوعی میتواند از این نمونهها یاد بگیرد و در زمینه طبقهبندی و تولید تصاویر عمل کند. این سیستم پیچیده از هوش مصنوعی که برای یادگیری از نمونهها برنامهریزی شده است، شبکه عصبی (neural network) نامیده میشود.
با این حال، انواع مختلفی از مدلهای هوش مصنوعی تولیدی وجود دارد، شامل شبکههای مقابلهای تولیدی یا Generative Adversarial Networks (GAN)، خودرمزنگار تغییری یا Variational Autoencoder (VAE) ، ترانسفورمرهای پیشآموزشدیده تولیدی Generative Pretrained Transformers (GPT), مدلهای Autoregressive و بسیاری دیگر میشوند. در ادامه به طور مختصر به بررسی این مدلهای تولیدی خواهیم پرداخت.
در حال حاضر، مدلهای GPT پس از انتشار GPT-4/3.5 (ChatGPT)، PaLM 2 (Google Bard)، GPT-3 (DALL – E)، LLaMA (Meta)، Stable Diffusion و … ، به شهرت رسیدهاند. تمام این رابطهای کاربرپسند هوش مصنوعی بر معماری ترانسفورمر بنا شدهاند. بنابراین، در این مطلب عمدتاً بر روی هوش مصنوعی تولیدی و GPT (ترانسفورمر پیشآموزشدیده تولیدی) تمرکز خواهیم کرد.
بیشتر بخوانید:
یادگیری ماشین چیست و چگونه کار می کند؟
شبکه عصبی چیست؟
کامپیوترها چگونه جهان را می بینند؟ همه چیز درباره Computer Vision
انواع مختلف مدلهای هوش مصنوعی تولیدی
در میان تمام مدلهای هوش مصنوعی تولیدی، GPT از محبوبیت زیادی برخوردار است، اما بیایید با GAN (Generative Adversarial Network) شروع کنیم. در این معماری، دو شبکه موازی آموزش داده میشوند، که یکی برای تولید محتوا (به نام تولیدکننده یا generator) و دیگری برای ارزیابی محتوای تولید شده (به نام تمیزدهنده یا discriminator) استفاده میشود.
به طور اساسی، هدف این است که دو شبکه عصبی را در مقابل یکدیگر قرار دهیم تا نتایجی را تولید کنند که منعکسکننده دادههای واقعی باشند. مدلهای مبتنی بر GAN بیشتر برای تولید تصویر استفاده شدهاند.
در ادامه، به سراغ مدل Variational Autoencoder (VAE) میرویم که فرایند رمزگذاری، یادگیری، رمزگشایی و تولید محتوا را شامل میشود. به عنوان مثال، اگر شما تصویری از یک سگ داشته باشید، این مدل صحنهای مانند رنگ، اندازه، گوشها و موارد دیگر را توصیف میکند و سپس یاد میگیرد که یک سگ چه ویژگیهایی دارد. پس از آن، با استفاده از نقاط کلیدی، تصویری تقریبی ایجاد میکند که نسخهای ساده شده است. در نهایت، پس از افزودن تنوع و ظرایف بیشتر، تصویر نهایی را تولید میکند.
مدلهای Autoregressive به مدل Transformer نزدیک هستند اما فاقد ویژگی self-attention میباشد. این مدلها عمدتاً برای تولید متن به کار میروند، با این روش که یک دنباله را تولید کرده و سپس بخش بعدی را بر اساس دنبالههایی که تاکنون تولید کرده است، پیشبینی میکند. در ادامه، ما به Normalizing Flows و Energy-based Models نیز خواهیم پرداخت. اما در نهایت، قصد داریم به طور مفصل درباره مدلهای مبتنی بر Transformer صحبت کنیم.
مدل Generative Pretrained Transformer (GPT) چیست؟
پیش از ظهور معماری Transformer، شبکههای عصبی بازگشتی (RNNs) و شبکههای عصبی کانولوشنی (CNNs) مانند GANها و VAEها به طور گستردهای برای هوش مصنوعی تولیدی استفاده میشدند. در سال ۲۰۱۷، محققان شاغل در گوگل مقاله بنیادین « “Attention is all you need» (واسوانی، اوسکورایت و همکاران، ۲۰۱۷) را منتشر کردند تا زمینهی ساخت هوش مصنوعی تولیدی را پیش ببرند و چیزی شبیه به یک مدل زبانی بزرگ (LLM) را ایجاد کنند.
در ادامه، گوگل در سال ۲۰۱۸ مدل BERT (نمایشهای دوجهتی رمزگذار از Transformerها) را که بر پایه معماری Transformer پیادهسازی شده بود، منتشر کرد. همزمان، OpenAI اولین مدل GPT-1 خود را بر اساس معماری Transformer منتشر کرد. پس چه عنصر کلیدی در معماری ترانسفورمر وجود داشت که آن را به یکی از محبوبترینها در هوش تولیدی تبدیل کرد؟
این فناوری دارای خاصیت خودآگاهی (self-attention) است که در معماریهای قبلی شبکههای عصبی وجود نداشت. این به این معناست که اساساً این سیستم با استفاده از روشی به نام ترانسفورمر، کلمه بعدی در جمله را پیشبینی میکند. این فناوری به کلمات مجاور توجه دقیقی میکند تا بافت و ارتباط بین کلمات را درک کند.
از طریق این فرآیند، ترانسفورمر درک مناسبی از زبان پیدا میکند و از این دانش برای پیشبینی قابل اعتماد کلمه بعدی استفاده میکند. کل این فرآیند به مکانیزم توجه معروف است. با این حال، به خاطر داشته باشید که مدلهای زبان بزرگ (LLMs) به طور کنایه آمیز به « Stochastic Parrots» یا طوطی های تصادفی نامیده میشوند، زیرا مدل تنها کلمات را بر اساس تصمیمات احتمالی و الگوهایی که آموخته است، تقلید میکند. این مدل کلمه بعدی را بر اساس منطق تعیین نمیکند و هیچ درک واقعی از متن ندارد.
اصطلاح «pretrained یا پیشآموزی» در GPT، به این معناست که مدل پیش از به کارگیری مکانیزم توجه، بر روی حجم عظیمی از دادههای متنی آموزش دیده است. با پیشآموزی دادهها، مدل یاد میگیرد که ساختار جمله، الگوها، حقایق، عبارات و غیره چگونه هستند. این امر به مدل کمک میکند تا درک خوبی از نحوه کارکرد دستور زبان پیدا کند.
Google و OpenAI چگونه به هوش مصنوعی تولیدی دست یافتند؟
گوگل و OpenAI هر دو از مدلهای پیشرفتهای به نام ترانسفورمر برای ساخت دستیارهای هوشمند خود، یعنی Bard و ChatGPT، استفاده میکنند. با این حال، این دو شرکت رویکردهای متفاوتی را در پیش گرفتهاند.
جدیدترین مدل گوگل، یعنی PaLM 2، از یک روش بسیار هوشمندانه برای درک زبان استفاده میکند. این مدل همه کلمات اطراف یک کلمه را بررسی میکند تا بتواند بهترین کلمه را برای جایگزینی آن پیدا کند. به عبارت سادهتر، PaLM 2 سعی میکند متن را به طور کامل درک کرده و سپس با توجه به این درک، کلمات را تولید کند. این رویکرد گوگل کمک میکند تا Bard بتواند پاسخهای دقیقتر و مرتبط تری به سوالات کاربران بدهد.
در مقابل، ChatGPT توسعه یافته توسط OpenAI از معماری Transformer برای پیشبینی کلمه بعدی در یک دنباله از چپ به راست، استفاده میکند . این مدل یکسویه طراحی شده است تا جملات منسجمی تولید کند. پیشبینی را ادامه میدهد تا زمانی که یک جمله کامل یا یک پاراگراف تولید کند. شاید به همین دلیل است که Google Bard متون را بسیار سریعتر از ChatGPT تولید میکند. با این حال، هر دو مدل در اصل بر معماری Transformer تکیه دارند تا رابطهای کاربری AI تولیدی را ارائه دهند.
کاربردهای هوش مصنوعی تولیدی
همه میدانیم که AI تولیدی کاربردهای گستردهای نه تنها برای تولید متن، بلکه برای خلق تصاویر، ویدئوها، صدا و بسیاری موارد دیگر دارد. چتباتهای AI مانند ChatGPT، Google Bard، Bing Chat و غیره از AI تولیدی استفاده میبرند. همچنین میتوان از آن برای تکمیل خودکار، خلاصهسازی متن، دستیار مجازی، ترجمه و غیره استفاده کرد. برای تولید موسیقی، نمونههایی مانند Google MusicLM را دیدهایم و اخیراً Meta هم MusicGen را برای تولید موسیقی منتشر کرده است. علاوه بر این، از DALL-E 2 تا Stable Diffusion، همگی از هوش مصنوعی تولیدی برای خلق تصاویر واقعگرایانه از دستورات متنی استفاده میکنند.
در زمینه تولید ویدئو نیز، مدلهای Gen-1 از Runway، StyleGAN 2، و BigGAN بر پایه شبکههای مقابلهای تولیدی (Generative Adversarial Networks) برای تولید ویدئوهای شبیه به واقعیت تکیه دارند. علاوه بر این، هوش مصنوعی تولیدی در تولید مدلهای سهبعدی کاربردهایی دارد و برخی از مدلهای محبوب در این زمینه DeepFashion و ShapeNet هستند.
هوش مصنوعی تولیدی تنها به این موارد محدود نمیشود، بلکه میتواند در کشف دارو نیز به شدت مفید باشد. این فناوری قادر است داروهای جدیدی را برای درمان بیماریهای خاص طراحی کند. ما قبلاً شاهد مدلهای کشف دارو مانند AlphaFold بودهایم که توسط Google DeepMind توسعه یافته است. در نهایت، هوش مصنوعی تولیدی میتواند برای مدل پیشبینیکننده به منظور پیشبینی رویدادهای مالی و هواشناسی به کار رود.
بیشتر بخوانید:
طراحی دارو توسط هوش مصنوعی
۵ ابزار برتر هوش مصنوعی پزشکی
پیش بینی نتایج مسابقات ورزشی با هوش مصنوعی
معنی GPT چیست؟ تفاوت مدلهای مختلف جیپیتی
محدودیتهای هوش مصنوعی تولیدی
در حالی که هوش مصنوعی تولیدی (Generative AI) تواناییهای بسیار زیادی دارد، اما عاری از نقص نیست. ابتدا باید گفت که برای آموزش یک مدل، نیاز به مجموعه دادههای بزرگی است. برای بسیاری از استارتاپهای کوچک، دسترسی به دادههای باکیفیت بالا ممکن نیست به آسانی مقدور نباشد.
ما قبلاً شاهد بودهایم که شرکتهایی مانند Reddit، Stack Overflow و Twitter دسترسی به دادههای خود را محدود یا هزینههای بالایی برای دسترسی دریافت کردهاند. اخیراً، آرشیو اینترنت گزارش داد که وبسایت آن به مدت یک ساعت قابل دسترسی نبوده است زیرا یک استارتاپ هوش مصنوعی شروع به بمباران وبسایت آنها برای جمعآوری دادههای آموزشی کرده بود.
علاوه بر این، مدلهای هوش مصنوعی تولیدی به دلیل نبود کنترل و وجود تعصب شدیداً مورد انتقاد قرار گرفتهاند. مدلهای AI که با دادههای نامتوازن از اینترنت آموزش دیدهاند، ممکن است بیشتر تحت تاثیر بخش خاصی از جامعه باشند. ما دیدهایم که چگونه مولدهای عکس AI عمدتاً تصاویر افرادی با پوست روشنتر را تولید میکنند. مشکل بزرگی هم در زمینه تولید ویدئو و تصویر deepfake با استفاده از مدلهای هوش مصنوعی تولیدی وجود دارد. همانطور که پیشتر گفته شد، مدلهای هوش مصنوعی تولیدی معنا یا تأثیر کلمات خود را درک نمیکنند و معمولاً خروجیها را بر اساس دادههایی که بر آنها آموزش دیدهاند، تقلید میکنند.
بیشتر بخوانید: دیپ فیک چیست؟ همه چیز درباره DeepFake
پرسشهای متداول
هوش مصنوعی تولیدی چیست؟
هوش مصنوعی تولیدی به زیرمجموعهای از فناوریهای هوش مصنوعی اطلاق میشود که قادر است بر اساس الگوها و دادههایی که از دادههای آموزشی خود یاد گرفته است، محتوای جدیدی مانند متن، تصویر، صوت و ویدیو تولید کند.
هوش مصنوعی تولیدی چگونه کار میکند؟
مدلهای هوش مصنوعی تولیدی معمولاً با استفاده از الگوریتمهای یادگیری ماشینی روی مجموعههای دادههای بزرگ آموزش میبینند. آنها یاد میگیرند تا الگوها، ساختارها، و ویژگیهای دادهها را درک و تکرار کنند. رویکردهای متداول شامل شبکههای تخاصمی تولیدی (GANs) و اتوانکودرهای وریشنی (VAEs) است.
برخی از کاربردهای معمول هوش مصنوعی تولیدی چیست؟
کاربردها شامل تولید محتوا (مانند نویسندگی، هنر، و موسیقی)، کشف دارو، متن پیشبینیکننده، چتباتها، توصیههای محتوای شخصیسازی شده، و موارد دیگر است.
آیا هوش مصنوعی تولیدی همان یادگیری عمیق است؟
هرچند هوش مصنوعی تولیدی اغلب از مدلها و تکنیکهای یادگیری عمیق استفاده میکند، یادگیری عمیق دستهای گستردهتر از یادگیری ماشین است که شامل هر شبکه عصبی با سه لایه یا بیشتر (شبکههای عمیق) میشود. هوش مصنوعی تولیدی به طور خاص درباره تولید خروجیهای جدید است.
آیا هوش مصنوعی تولیدی قادر به خلق محتوای اصیل است؟
بله، هوش مصنوعی تولیدی میتواند محتوایی را ایجاد کند که به نظر میرسد اصیل است، اما این محتوا بر اساس الگوها و دادههایی است که آن را آموزش دیده است. “اصالت” در ترکیبهای جدید و تفسیرهای این دادههای آموزشی است.
چه ریسکهایی با هوش مصنوعی تولیدی همراه است؟
ریسکها شامل احتمال تولید محتوای گمراهکننده یا مضر، مسائل نقض حق تکثیر، انتشار تعصبات موجود در دادههای آموزشی، و نگرانیهای امنیتی مانند دیپفیکها میشود.
تأثیر هوش مصنوعی تولیدی بر نیروی کار چگونه است؟
در حالی که این فناوری برخی از وظایف را خودکار میکند و ممکن است منجر به حذف شغلهای خاصی شود، همچنین فرصتهایی برای نقشها و صنایع جدید ایجاد میکند، به ویژه در نظارت بر AI، اخلاق، و حرفههای خلاقیت افزوده.
نقش اخلاق در هوش مصنوعی تولیدی چیست؟
ملاحظات اخلاقی برای راهنمایی توسعه و استقرار هوش مصنوعی تولیدی برای تضمین انصاف، شفافیت، پاسخگویی، و کاهش آسیب ضروری است. این شامل رسیدگی به تعصبات در دادههای آموزشی و استفاده اخلاقی از محتوای تولیدی میشود.
چگونه میتوان کیفیت خروجیهای هوش مصنوعی تولیدی را تضمین کرد؟
تضمین کیفیت خروجیهای هوش مصنوعی تولیدی شامل آزمایش و اعتبارسنجی دقیق، نظارت مداوم، و بهروزرسانی مدلها برای اصلاح خطاها و تعصبات است. بازخورد کاربران نیز برای بهبود عملکرد ضروری است.
آینده هوش مصنوعی تولیدی چگونه خواهد بود؟
آینده هوش مصنوعی تولیدی احتمالاً شاهد پذیرش گستردهتر در بخشهای بیشتری خواهد بود، فناوریهای بهبود یافته برای خروجیهای واقعگرایانهتر و دقیقتر، و چارچوبهای قویتر برای استفاده اخلاقی و امن. ادغام با سایر فناوریهای AI میتواند منجر به سیستمهای پیچیدهتر و خودکارتر شود.