مقایسه Llama 3 در برابر GPT4 ؛ چالش‌های Meta و OpenAI

در چشم‌انداز همیشه در حال پیشرفت هوش مصنوعی، دو غول فناوری خود را برای نبردی از جنس هوش آماده می‌کنند. Meta، غول رسانه‌های اجتماعی، با آخرین نوآوری هوش مصنوعی خود، مدل زبانی پیشرفته‌ی Llama 3، دست چر به میدان آمده تا با استاندارد طلایی این صنعت، یعنی GPT-4 از OpenAI ، رقابت کند. رقابت شدید و تنگاتنگ است، زیرا هر دو شرکت در بازی پُرمخاطره‌ی بهترین‌های هوش مصنوعی به نقش آفرینی می‌پردازند، هر کدام با هدف برتری یافتن بر دیگری. اما این رویارویی چه معنایی برای آینده‌ی تحقیقات هوش مصنوعی دارد و کدام مدل به پیروزی خواهد رسید؟

شرکت Meta به تازگی مدل Llama 3 خود را در دو اندازه با پارامترهای ۸ میلیاردی و ۷۰ میلیاردی معرفی کرده و مدل‌ها را برای جامعه هوش مصنوعی منبع‌باز (open-source) کرده است. مدل کوچک‌تر Llama 3 با وجود اینکه ۷۰ میلیارد پارامتری است اما توانایی‌های چشمگیری را نشان داده است. بنابراین، ما مدل Llama 3 را با مدل GPT-4 که پرچمدار و پیشرو است مقایسه کردیم تا عملکرد آن‌ها را در آزمون‌های مختلف ارزیابی کنیم. در این راستا، به مقایسه‌ی ما بین Llama 3 و GPT-4 می‌پردازیم. برای درک بهتر و بررسی عملکرد این دو مدل در زبان‌های مختلف، ما برخی آزمون ها را به زبان فارسی و برخی را به زبان انگلیسی آوردیم .

۱

آزمون آسانسور جادویی

اول از همه، آزمون آسانسور جادویی را برای ارزیابی توانایی استدلال منطقی Llama 3 در مقایسه با GPT-4 اجرا کردم و حدس بزنید نتیجه چه بود؟ Llama 3 این آزمون را با موفقیت پشت سر گذاشت در حالی که مدل GPT-4 نتوانست پاسخ صحیح را ارائه دهد. این موضوع واقعاً شگفت‌انگیز است زیرا Llama 3 تنها با ۷۰ میلیارد پارامتر آموزش دیده است در حالی که GPT-4 با ۱.۷ تریلیون پارامتر آموزش دیده است. توجه داشته باشید، ما این آزمون را روی مدل GPT-4 که در ChatGPT در دسترس کاربران ChatGPT Plus است، اجرا کردیم که به نظر می‌رسد از مدل قدیمی‌تر GPT-4 Turbo استفاده می‌کند.

در یک ساختمان بلند، یک آسانسور جادویی وجود دارد. زمانی که این آسانسور در طبقه زوج توقف می‌کند، به طبقه یک برمی‌گردد.
من از طبقه یک، با آسانسور جادویی سه طبقه بالا می‌روم. پس از خروج از آسانسور، سه طبقه دیگر از پله‌ها بالا می‌روم.
من الان در چه طبقه‌ای قرار دارم؟

آزمون آسانسور جادویی gpt-4
آزمون آسانسور جادویی llama 3
برنده
Llama 3 و GPT-4
۲

آزمون محاسبه زمان خشک شدن

در مرحله بعد، ما سؤال استدلال کلاسیک را برای آزمایش هوش هر دو مدل اجرا کردیم. در این آزمون، هر دو مدل Llama 3 70B و GPT-4 بدون نیاز به دخالت ریاضیات، پاسخ صحیح را دادند. کار خوبی بود، Meta!

اگر خشک کردن ۱۵ حوله زیر نور خورشید ۱ ساعت زمان ببرد، خشک کردن ۲۰ حوله چقدر طول می‌کشد؟

آزمون محاسبه زمان خشک شدن gpt-4
آزمون محاسبه زمان خشک شدن llama 3
برنده
GPT-4
۳

آزمون پیدا کردن سیب

پس از آن، من سؤال دیگری را برای مقایسه توانایی استدلال Llama 3 و GPT-4 پرسیدم. در این آزمون، مدل Llama 3 70B نزدیک به دادن پاسخ درست بود اما از ذکر جعبه غافل ماند. در حالی که مدل GPT-4 به درستی پاسخ داد که “سیب‌ها هنوز درون جعبه روی زمین هستند”. این دور را به GPT-4 می‌دهم.

یک سبد بدون ته درون یک جعبه قرار دارد که روی زمین است. من سه سیب را داخل سبد قرار دادم و سپس سبد را روی میز بردم. سیب‌ها کجا هستند؟

آزمون پیدا کردن سیب gpt-4
آزمون پیدا کردن سیب llama3
برنده
Llama 3 و GPT-4
۴

آزمون کدام سنگین‌تر است؟

در حالی که سؤال به نظر بسیار ساده می‌رسد، بسیاری از مدل‌های هوش مصنوعی در دادن پاسخ صحیح شکست می‌خورند. با این حال، در این آزمون، هر دو مدل Llama 3 70B و GPT-4 پاسخ درست را دادند. با این وجود، گاهی اوقات Llama 3 خروجی نادرست تولید می‌کند، پس به این نکته توجه داشته باشید.

کدام سنگین‌تر است، یک کیلو پر یا یک پوند فولاد؟

آزمون کدام سنگین‌تر است؟ gpt-4
آزمون کدام سنگین‌تر است؟ llama 3
برنده
Llama 3 و GPT-4
۵

یافتن موقعیت

سپس، من یک سؤال منطقی ساده پرسیدم و هر دو مدل پاسخ صحیح دادند. جالب است که ببینیم مدل کوچک‌تر Llama 3 70B با مدل برتر GPT-4 رقابت می‌کند.

من در یک مسابقه دو هستم و نفر دوم از من سبقت می‌گیرد. من الان نفر چندم هستم؟

یافتن موقعیت gpt-4
یافتن موقعیت llama 3
برنده
Llama 3 و GPT-4
۶

حل یک مسئله ریاضی

در مرحله بعد، ما یک مسئله ریاضی پیچیده را روی هر دو مدل Llama 3 و GPT-4 اجرا کردیم تا ببینیم کدام یک در این آزمون پیروز می‌شود. در اینجا، GPT-4 با موفقیت کامل این آزمون را پشت سر می‌گذارد، اما Llama 3 نتوانست پاسخ صحیح را ارائه دهد. البته این امر تعجب‌آور نیست. مدل GPT-4 در بنچمارک MATH عملکرد فوق‌العاده‌ای داشته است. به یاد داشته باشید که من صراحتاً از ChatGPT خواستم که از Code Interpreter برای محاسبات ریاضی استفاده نکند.

محاسبه مجموع مختصات y چهار نقطه تقاطع y = x^4 – 5x^2 – x + 4 و y = x^2 – 3x.

حل یک مسئله ریاضی gpt-4 1
حل یک مسئله ریاضی gpt-4 2
حل یک مسئله ریاضی  llama 3
برنده
GPT-4
۷

پیروی از دستورالعمل‌های کاربر

برای یک مدل هوش مصنوعی بسیار مهم است و مدل Llama 3 70B از شرکت Meta در این زمینه برجسته است. این مدل توانست تمام ۱۰ جمله‌ای که با کلمه “mango” به پایان می‌رسند را تولید کند. در حالی که GPT-4 تنها توانست هشت جمله ایجاد کند.

تولید ۱۰ جمله که با کلمه “mango” به پایان برسند

پیروی از دستورالعمل‌های کاربر chatgpt
پیروی از دستورالعمل‌های کاربر llama 3
برنده
Llama 3 و GPT-4
۸

آزمون NIAH

با وجود اینکه Llama 3 در حال حاضر پنجره متنی طولانی ندارد، ما همچنان تست NIAH را برای بررسی توانایی بازیابی آن انجام دادیم. مدل Llama 3 با ظرفیت ۷۰B از متن تا طول ۸K توکن پشتیبانی می‌کند. به همین دلیل، من یک جمله تصادفی را درون متنی به طول ۳۵K کاراکتر (معادل ۸K توکن) قرار دادم و از مدل خواستم تا این اطلاعات را پیدا کند. Llama 3 70B با سرعت شگفت‌آوری جمله را یافت. GPT-4 نیز هیچ مشکلی در یافتن این جمله نداشت.

البته این یک متن کوچک بود، اما زمانی که Meta مدل Llama 3 با پنجره متنی بسیار بزرگتری را منتشر کند، من دوباره آن را آزمایش خواهم کرد. هرچند همین الان هم Llama 3 توانایی بازیابی فوق‌العاده‌ای نشان می‌دهد.

برنده
Llama 3 و GPT-4

حکم نهایی Llama 3 در مقابل GPT-4

مدل Llama 3 70B تقریباً در تمامی آزمون‌ها، توانایی‌های چشمگیری را نشان داده است، در استدلال پیشرفته، دنبال کردن دستورالعمل‌های کاربر، یا توانایی بازیابی. تنها در محاسبات ریاضی است که این مدل نسبت به مدل GPT-4 عقب می‌ماند. Meta اعلام کرده است که Llama 3 با دیتاست برنامه‌نویسی بزرگ‌تری آموزش دیده است، بنابراین عملکرد کدنویسی آن نیز باید عالی باشد.

به خاطر داشته باشید که ما در حال مقایسه یک مدل بسیار کوچک‌تر با مدل GPT-4 هستیم. Llama 3 یک مدل متراکم است در حالی که GPT-4 بر اساس معماری MoE ساخته شده که شامل ۸ مدل ۲۲۲B است. این نشان می‌دهد که Meta کار قابل توجهی با خانواده مدل‌های Llama 3 انجام داده است. وقتی مدل Llama 3 با ظرفیت ۵۰۰B+ در آینده عرضه شود، عملکرد بهتری خواهد داشت و ممکن است بهترین مدل‌های هوش مصنوعی موجود را شکست دهد.

با اطمینان می‌توان گفت که Llama ۳ بازی را به سطح بالاتری برده است و Meta با انتشار مدل خود به‌صورت متن‌باز (Open-source)، شکاف قابل‌توجه بین مدل‌های اختصاصی و متن‌باز را پر کرده است. تمام این آزمایش‌ها را روی مدل Instruct انجام دادیم. مدل‌هایی که روی Llama ۳ با ظرفیت ۷۰ بیلیون پارامتر بهینه‌سازی شده‌اند، عملکرد استثنایی ارائه خواهند داد. علاوه بر OpenAI، Anthropic و Google، حالا Meta هم به‌طور رسمی به مسابقات هوش مصنوعی پیوسته است!

پرسش های کاربران

GPT-4 و LLaMA 3 چه هستند؟

GPT-4 یک مدل زبان بزرگ است که توسط OpenAI توسعه یافته و بر اساس توانایی‌های نسخه‌های قبلی خود، به منظور تولید متن شبیه به انسان بر اساس ورودی‌هایی که دریافت می‌کند، طراحی شده است. LLaMA 3، که توسط هوش مصنوعی متا (که قبلاً به عنوان هوش مصنوعی فیسبوک شناخته می‌شد) توسعه یافته، نیز یک مدل زبان بزرگ است که بر روی کارایی و قابلیت ارتقاء تمرکز دارد.

تفاوت‌های GPT-4 و LLaMA 3 در چیست؟

هر دو مدل برای پردازش و تولید زبان طبیعی طراحی شده‌اند، اما GPT-4 معمولاً بر روی مدل‌سازی زبان در مقیاس وسیع با داده‌های گسترده تمرکز دارد. LLaMA 3 ممکن است ، بسته به تمرکز تحقیقاتی و اولویت‌های توسعه متا، بر روی بهینه‌سازی‌های خاص برای کارایی و جنبه‌های مختلف نحوه برخورد با ظرافت‌های زبانی تمرکز داشته باشد.

کدام مدل بهتر است، GPT-4 یا LLaMA 3؟

“بهتر” بودن می‌تواند به کاربرد خاص بستگی داشته باشد. GPT-4 ممکن است در برخی انواع تولید و درک زبان برتری داشته باشد، در حالی که LLaMA 3 ممکن است در کارایی یا وظایف زبانی خاص عملکرد بهتری داشته باشد. عملکرد همچنین ممکن است بسته به مجموعه داده‌ها و وظیفه مورد نظر متغیر باشد.

آزمون NIAH چیست؟

آزمون NIAH یک چارچوب فرضی است که برای ارزیابی توانایی سیستم‌های هوش مصنوعی در تعامل طبیعی در محیط انسانی طراحی شده است. این آزمون میزان درک و پاسخگویی هوش مصنوعی به سناریوهای روزمره داخل خانه را اندازه‌گیری می‌کند.

چرا آزمون NIAH مهم است؟

این آزمون‌ها برای ارزیابی کاربردی بودن AI در سناریوهای واقعی ضروری هستند، تا اطمینان حاصل شود که فناوری‌های هوش مصنوعی به طور موثر در محیط‌های روزمره انسانی ادغام شده و در انجام وظایف کمک می‌کنند

Meta AI چیست؟

Meta AI، شاخه تحقیقاتی شرکت Meta Platforms, Inc. (که قبلاً با نام Facebook, Inc. شناخته می‌شد) است که به پیشبرد فناوری هوش مصنوعی اختصاص دارد. کار این مرکز شامل توسعه مدل‌های هوش مصنوعی، بهبود تکنیک‌های یادگیری ماشین و بررسی کاربردهای هوش مصنوعی در زمینه‌های شبکه‌های اجتماعی و فراتر از آن می‌باشد.

پروژه‌های کلیدی Meta AI چه هستند؟

Meta AI در طیف وسیعی از پروژه‌ها فعالیت دارد که شامل مدل‌های زبانی مانند LLaMA، سیستم‌های شناسایی تصویر، هوش مصنوعی برای محیط‌های واقعیت مجازی و موارد دیگر می‌شود. علاوه بر این، آن‌ها بر توسعه هوش مصنوعی اخلاقی و مقیاس‌پذیری فناوری‌های هوش مصنوعی تمرکز دارند.

تأثیر Meta AI بر کاربران معمولی چگونه است؟

فناوری‌های توسعه یافته توسط Meta AI می‌توانند تجربه کاربران را در پلتفرم‌های متا مانند فیسبوک، اینستاگرام و واتساپ از طریق بهبود پیشنهادات محتوا، هدف‌گیری بهتر تبلیغات و تعاملات دیجیتالی پیشرفته‌تر بهبود بخشند.

نقطه
Logo