![](https://noghte.com/wp-content/uploads/2024/04/gpt_vs_llama-jpg.webp)
در چشمانداز همیشه در حال پیشرفت هوش مصنوعی، دو غول فناوری خود را برای نبردی از جنس هوش آماده میکنند. Meta، غول رسانههای اجتماعی، با آخرین نوآوری هوش مصنوعی خود، مدل زبانی پیشرفتهی Llama 3، دست چر به میدان آمده تا با استاندارد طلایی این صنعت، یعنی GPT-4 از OpenAI ، رقابت کند. رقابت شدید و تنگاتنگ است، زیرا هر دو شرکت در بازی پُرمخاطرهی بهترینهای هوش مصنوعی به نقش آفرینی میپردازند، هر کدام با هدف برتری یافتن بر دیگری. اما این رویارویی چه معنایی برای آیندهی تحقیقات هوش مصنوعی دارد و کدام مدل به پیروزی خواهد رسید؟
شرکت Meta به تازگی مدل Llama 3 خود را در دو اندازه با پارامترهای ۸ میلیاردی و ۷۰ میلیاردی معرفی کرده و مدلها را برای جامعه هوش مصنوعی منبعباز (open-source) کرده است. مدل کوچکتر Llama 3 با وجود اینکه ۷۰ میلیارد پارامتری است اما تواناییهای چشمگیری را نشان داده است. بنابراین، ما مدل Llama 3 را با مدل GPT-4 که پرچمدار و پیشرو است مقایسه کردیم تا عملکرد آنها را در آزمونهای مختلف ارزیابی کنیم. در این راستا، به مقایسهی ما بین Llama 3 و GPT-4 میپردازیم. برای درک بهتر و بررسی عملکرد این دو مدل در زبانهای مختلف، ما برخی آزمون ها را به زبان فارسی و برخی را به زبان انگلیسی آوردیم .
آزمون آسانسور جادویی
اول از همه، آزمون آسانسور جادویی را برای ارزیابی توانایی استدلال منطقی Llama 3 در مقایسه با GPT-4 اجرا کردم و حدس بزنید نتیجه چه بود؟ Llama 3 این آزمون را با موفقیت پشت سر گذاشت در حالی که مدل GPT-4 نتوانست پاسخ صحیح را ارائه دهد. این موضوع واقعاً شگفتانگیز است زیرا Llama 3 تنها با ۷۰ میلیارد پارامتر آموزش دیده است در حالی که GPT-4 با ۱.۷ تریلیون پارامتر آموزش دیده است. توجه داشته باشید، ما این آزمون را روی مدل GPT-4 که در ChatGPT در دسترس کاربران ChatGPT Plus است، اجرا کردیم که به نظر میرسد از مدل قدیمیتر GPT-4 Turbo استفاده میکند.
در یک ساختمان بلند، یک آسانسور جادویی وجود دارد. زمانی که این آسانسور در طبقه زوج توقف میکند، به طبقه یک برمیگردد.
من از طبقه یک، با آسانسور جادویی سه طبقه بالا میروم. پس از خروج از آسانسور، سه طبقه دیگر از پلهها بالا میروم.
من الان در چه طبقهای قرار دارم؟
![آزمون آسانسور جادویی gpt-4](https://noghte.com/wp-content/uploads/2024/04/v_chatgpt_1-jpg.webp)
![آزمون آسانسور جادویی llama 3](https://noghte.com/wp-content/uploads/2024/04/v_llama_1-jpg.webp)
آزمون محاسبه زمان خشک شدن
در مرحله بعد، ما سؤال استدلال کلاسیک را برای آزمایش هوش هر دو مدل اجرا کردیم. در این آزمون، هر دو مدل Llama 3 70B و GPT-4 بدون نیاز به دخالت ریاضیات، پاسخ صحیح را دادند. کار خوبی بود، Meta!
اگر خشک کردن ۱۵ حوله زیر نور خورشید ۱ ساعت زمان ببرد، خشک کردن ۲۰ حوله چقدر طول میکشد؟
![آزمون محاسبه زمان خشک شدن gpt-4](https://noghte.com/wp-content/uploads/2024/04/v_chatgpt_2-jpg.webp)
![آزمون محاسبه زمان خشک شدن llama 3](https://noghte.com/wp-content/uploads/2024/04/v_llama_2-1-jpg.webp)
آزمون پیدا کردن سیب
پس از آن، من سؤال دیگری را برای مقایسه توانایی استدلال Llama 3 و GPT-4 پرسیدم. در این آزمون، مدل Llama 3 70B نزدیک به دادن پاسخ درست بود اما از ذکر جعبه غافل ماند. در حالی که مدل GPT-4 به درستی پاسخ داد که “سیبها هنوز درون جعبه روی زمین هستند”. این دور را به GPT-4 میدهم.
یک سبد بدون ته درون یک جعبه قرار دارد که روی زمین است. من سه سیب را داخل سبد قرار دادم و سپس سبد را روی میز بردم. سیبها کجا هستند؟
![آزمون پیدا کردن سیب gpt-4](https://noghte.com/wp-content/uploads/2024/04/v_chatgpt_3-jpg.webp)
![آزمون پیدا کردن سیب llama3](https://noghte.com/wp-content/uploads/2024/04/v_llama_3-jpg.webp)
آزمون کدام سنگینتر است؟
در حالی که سؤال به نظر بسیار ساده میرسد، بسیاری از مدلهای هوش مصنوعی در دادن پاسخ صحیح شکست میخورند. با این حال، در این آزمون، هر دو مدل Llama 3 70B و GPT-4 پاسخ درست را دادند. با این وجود، گاهی اوقات Llama 3 خروجی نادرست تولید میکند، پس به این نکته توجه داشته باشید.
کدام سنگینتر است، یک کیلو پر یا یک پوند فولاد؟
![آزمون کدام سنگینتر است؟ gpt-4](https://noghte.com/wp-content/uploads/2024/04/v_chatgpt_4-jpg.webp)
![آزمون کدام سنگینتر است؟ llama 3](https://noghte.com/wp-content/uploads/2024/04/v_llama_4-jpg.webp)
یافتن موقعیت
سپس، من یک سؤال منطقی ساده پرسیدم و هر دو مدل پاسخ صحیح دادند. جالب است که ببینیم مدل کوچکتر Llama 3 70B با مدل برتر GPT-4 رقابت میکند.
من در یک مسابقه دو هستم و نفر دوم از من سبقت میگیرد. من الان نفر چندم هستم؟
![یافتن موقعیت gpt-4](https://noghte.com/wp-content/uploads/2024/04/v_chatgpt_5-jpg.webp)
![یافتن موقعیت llama 3](https://noghte.com/wp-content/uploads/2024/04/v_llama_5-jpg.webp)
حل یک مسئله ریاضی
در مرحله بعد، ما یک مسئله ریاضی پیچیده را روی هر دو مدل Llama 3 و GPT-4 اجرا کردیم تا ببینیم کدام یک در این آزمون پیروز میشود. در اینجا، GPT-4 با موفقیت کامل این آزمون را پشت سر میگذارد، اما Llama 3 نتوانست پاسخ صحیح را ارائه دهد. البته این امر تعجبآور نیست. مدل GPT-4 در بنچمارک MATH عملکرد فوقالعادهای داشته است. به یاد داشته باشید که من صراحتاً از ChatGPT خواستم که از Code Interpreter برای محاسبات ریاضی استفاده نکند.
محاسبه مجموع مختصات y چهار نقطه تقاطع y = x^4 – 5x^2 – x + 4 و y = x^2 – 3x.
![حل یک مسئله ریاضی gpt-4 1](https://noghte.com/wp-content/uploads/2024/04/1-jpg.webp)
![حل یک مسئله ریاضی gpt-4 2](https://noghte.com/wp-content/uploads/2024/04/v_chatgpt_6-1-jpg.webp)
![حل یک مسئله ریاضی llama 3](https://noghte.com/wp-content/uploads/2024/04/v_llama_6-jpg.webp)
پیروی از دستورالعملهای کاربر
برای یک مدل هوش مصنوعی بسیار مهم است و مدل Llama 3 70B از شرکت Meta در این زمینه برجسته است. این مدل توانست تمام ۱۰ جملهای که با کلمه “mango” به پایان میرسند را تولید کند. در حالی که GPT-4 تنها توانست هشت جمله ایجاد کند.
تولید ۱۰ جمله که با کلمه “mango” به پایان برسند
![پیروی از دستورالعملهای کاربر chatgpt](https://noghte.com/wp-content/uploads/2024/04/v_chatgpt_7-jpg.webp)
![پیروی از دستورالعملهای کاربر llama 3](https://noghte.com/wp-content/uploads/2024/04/v_llama_7-jpg.webp)
آزمون NIAH
با وجود اینکه Llama 3 در حال حاضر پنجره متنی طولانی ندارد، ما همچنان تست NIAH را برای بررسی توانایی بازیابی آن انجام دادیم. مدل Llama 3 با ظرفیت ۷۰B از متن تا طول ۸K توکن پشتیبانی میکند. به همین دلیل، من یک جمله تصادفی را درون متنی به طول ۳۵K کاراکتر (معادل ۸K توکن) قرار دادم و از مدل خواستم تا این اطلاعات را پیدا کند. Llama 3 70B با سرعت شگفتآوری جمله را یافت. GPT-4 نیز هیچ مشکلی در یافتن این جمله نداشت.
البته این یک متن کوچک بود، اما زمانی که Meta مدل Llama 3 با پنجره متنی بسیار بزرگتری را منتشر کند، من دوباره آن را آزمایش خواهم کرد. هرچند همین الان هم Llama 3 توانایی بازیابی فوقالعادهای نشان میدهد.
حکم نهایی Llama 3 در مقابل GPT-4
مدل Llama 3 70B تقریباً در تمامی آزمونها، تواناییهای چشمگیری را نشان داده است، در استدلال پیشرفته، دنبال کردن دستورالعملهای کاربر، یا توانایی بازیابی. تنها در محاسبات ریاضی است که این مدل نسبت به مدل GPT-4 عقب میماند. Meta اعلام کرده است که Llama 3 با دیتاست برنامهنویسی بزرگتری آموزش دیده است، بنابراین عملکرد کدنویسی آن نیز باید عالی باشد.
به خاطر داشته باشید که ما در حال مقایسه یک مدل بسیار کوچکتر با مدل GPT-4 هستیم. Llama 3 یک مدل متراکم است در حالی که GPT-4 بر اساس معماری MoE ساخته شده که شامل ۸ مدل ۲۲۲B است. این نشان میدهد که Meta کار قابل توجهی با خانواده مدلهای Llama 3 انجام داده است. وقتی مدل Llama 3 با ظرفیت ۵۰۰B+ در آینده عرضه شود، عملکرد بهتری خواهد داشت و ممکن است بهترین مدلهای هوش مصنوعی موجود را شکست دهد.
با اطمینان میتوان گفت که Llama ۳ بازی را به سطح بالاتری برده است و Meta با انتشار مدل خود بهصورت متنباز (Open-source)، شکاف قابلتوجه بین مدلهای اختصاصی و متنباز را پر کرده است. تمام این آزمایشها را روی مدل Instruct انجام دادیم. مدلهایی که روی Llama ۳ با ظرفیت ۷۰ بیلیون پارامتر بهینهسازی شدهاند، عملکرد استثنایی ارائه خواهند داد. علاوه بر OpenAI، Anthropic و Google، حالا Meta هم بهطور رسمی به مسابقات هوش مصنوعی پیوسته است!
پرسش های کاربران
GPT-4 و LLaMA 3 چه هستند؟
GPT-4 یک مدل زبان بزرگ است که توسط OpenAI توسعه یافته و بر اساس تواناییهای نسخههای قبلی خود، به منظور تولید متن شبیه به انسان بر اساس ورودیهایی که دریافت میکند، طراحی شده است. LLaMA 3، که توسط هوش مصنوعی متا (که قبلاً به عنوان هوش مصنوعی فیسبوک شناخته میشد) توسعه یافته، نیز یک مدل زبان بزرگ است که بر روی کارایی و قابلیت ارتقاء تمرکز دارد.
تفاوتهای GPT-4 و LLaMA 3 در چیست؟
هر دو مدل برای پردازش و تولید زبان طبیعی طراحی شدهاند، اما GPT-4 معمولاً بر روی مدلسازی زبان در مقیاس وسیع با دادههای گسترده تمرکز دارد. LLaMA 3 ممکن است ، بسته به تمرکز تحقیقاتی و اولویتهای توسعه متا، بر روی بهینهسازیهای خاص برای کارایی و جنبههای مختلف نحوه برخورد با ظرافتهای زبانی تمرکز داشته باشد.
کدام مدل بهتر است، GPT-4 یا LLaMA 3؟
“بهتر” بودن میتواند به کاربرد خاص بستگی داشته باشد. GPT-4 ممکن است در برخی انواع تولید و درک زبان برتری داشته باشد، در حالی که LLaMA 3 ممکن است در کارایی یا وظایف زبانی خاص عملکرد بهتری داشته باشد. عملکرد همچنین ممکن است بسته به مجموعه دادهها و وظیفه مورد نظر متغیر باشد.
آزمون NIAH چیست؟
آزمون NIAH یک چارچوب فرضی است که برای ارزیابی توانایی سیستمهای هوش مصنوعی در تعامل طبیعی در محیط انسانی طراحی شده است. این آزمون میزان درک و پاسخگویی هوش مصنوعی به سناریوهای روزمره داخل خانه را اندازهگیری میکند.
چرا آزمون NIAH مهم است؟
این آزمونها برای ارزیابی کاربردی بودن AI در سناریوهای واقعی ضروری هستند، تا اطمینان حاصل شود که فناوریهای هوش مصنوعی به طور موثر در محیطهای روزمره انسانی ادغام شده و در انجام وظایف کمک میکنند
Meta AI چیست؟
Meta AI، شاخه تحقیقاتی شرکت Meta Platforms, Inc. (که قبلاً با نام Facebook, Inc. شناخته میشد) است که به پیشبرد فناوری هوش مصنوعی اختصاص دارد. کار این مرکز شامل توسعه مدلهای هوش مصنوعی، بهبود تکنیکهای یادگیری ماشین و بررسی کاربردهای هوش مصنوعی در زمینههای شبکههای اجتماعی و فراتر از آن میباشد.
پروژههای کلیدی Meta AI چه هستند؟
Meta AI در طیف وسیعی از پروژهها فعالیت دارد که شامل مدلهای زبانی مانند LLaMA، سیستمهای شناسایی تصویر، هوش مصنوعی برای محیطهای واقعیت مجازی و موارد دیگر میشود. علاوه بر این، آنها بر توسعه هوش مصنوعی اخلاقی و مقیاسپذیری فناوریهای هوش مصنوعی تمرکز دارند.
تأثیر Meta AI بر کاربران معمولی چگونه است؟
فناوریهای توسعه یافته توسط Meta AI میتوانند تجربه کاربران را در پلتفرمهای متا مانند فیسبوک، اینستاگرام و واتساپ از طریق بهبود پیشنهادات محتوا، هدفگیری بهتر تبلیغات و تعاملات دیجیتالی پیشرفتهتر بهبود بخشند.