گوگل چندی پس از راهاندازی Gemini 1.0 Ultra، با یک مدل جدید برای رقابت با GPT-4 بازگشته است. این مدل Gemini 1.5 Pro است، جانشین Gemini 1.0 Pro که در حال حاضر به نسخه رایگان Gemini قدرت میبخشد. این نسخه از هوش مصنوعی در تواناییهایی مانند استدلال، برنامهریزی و درک پیشرفت کرده است. از ویژگیهای این نسخه میتوان به ارائه پاسخ در زمان کوتاه تر، درک بهتر سوالات و توانایی دریافت حجم بزرگی از متن یا کد اشاره کرد.
در حالی که خانواده مدلهای Gemini 1.0 پنجره متنی تا 32 هزار توکن دارند، مدل 1.5 Pro طول متن استاندارد را تا 128 هزار توکن افزایش داده است. علاوه بر آن، پنجره متنی عظیم تا 1 میلیون توکن را پشتیبانی میکند، عددی که بسیار بیشتر از GPT-4 Turbo با 128 هزار و Claude 2.1 با 200 هزار توکن است.
Gemini 1.5 Pro قادر به تحلیل تا ۷۰۰۰۰۰ کلمه یا ۳۰۰۰۰ خط کد در پیشنمایش خصوصی محدود است. این نسخه قادر به آنالیز صدا و ویدیو به زبانهای مختلف است و از طریق API در Vertex AI برای پذیرش متن و تولید متن به عنوان خروجی قابل دسترسی است.
Gemini 1.5 Pro بر اساس معماری Mixture-of-Experts (MoE) ساخته شده است
گوگل میگوید Gemini 1.5 Pro یک مدل متوسط است، اما تقریباً همان عملکرد Gemini 1.0 Ultra را با استفاده از محاسبات کمتر دارد. مدل 1.5 Pro بر اساس معماری ترکیب کارشناسان (MoE) ساخته شده است، شبیه به مدل GPT-4 از OpenAI. این اولین باری است که گوگل به جای یک مدل تک چگال (single dense)، یک مدل MoE را منتشر میکند.
معماری Mixture-of-Experts (MoE) یک معماری در یادگیری عمیق است که چندین شبکه عصبی را ترکیب میکند، که هر کدام در یک وظیفه یا حوزه خاص تخصص دارند، تا خروجی دقیقتر و مقاومتری تولید کنند. این رویکرد به ویژه برای وظایف پیچیده که نیاز به تخصصهای متنوعی دارند، مانند پردازش زبان طبیعی، بینایی کامپیوتر یا سیستمهای تصمیمگیری، مفید است. در معماری MoE، هر شبکه متخصص به طور مستقل آموزش داده میشود تا بر جنبهای خاص از وظیفه تمرکز کند و سپس خروجیهای همه متخصصان با استفاده از یک شبکه دروازهای ترکیب میشوند تا خروجی نهایی را تولید کنند. شبکه دروازهای یاد میگیرد که وزنهای متخصصان را بر اساس دادههای ورودی تخصیص دهد، به سیستم امکان میدهد که با شرایط و وظایف مختلف سازگار شود. MoE در بهبود عملکرد مدلهای یادگیری عمیق در کاربردهای مختلف، از جمله طبقهبندی تصویر، ترجمه زبان و پاسخگویی به سوالات، موثر بوده است. این معماری به ویژه برای وظایفی که نیاز به ترکیب انواع مختلف دانش یا تخصص دارند، مانند ادغام اطلاعات بصری و متنی در زیرنویس تصاویر یا ترکیب اطلاعات زبانی و زمینهای در ترجمه زبان، موثر است.
پنجره متنی بزرگ Gemini 1.5 Pro، میتواند مقادیر زیادی داده را یکجا دریافت کند. گوگل میگوید طول 1 میلیون متنی میتواند 700,000 کلمه یا 1 ساعت ویدیو یا 11 ساعت صوت یا کدهای برنامهنویسی با بیش از 30,000 خط کد را پردازش کند. برای آزمایش قابلیت بازیابی Gemini 1.5 Pro، با توجه به اینکه پنجره متنی بزرگی دارد، گوگل چالش سوزن در انبار را انجام داد و به گفته شرکت، سوزن (بیانیه متنی) را 99% مواقع بازیابی کرد. برای مقایسه ما بین Gemini 1.0 Ultra و GPT-4، ما همان آزمون را انجام دادیم، اما Gemini 1.0 Ultra قادر به بازیابی بیانیه نبود.
مدل 1.5 Pro در حال حاضر در پیشنمایش است و فقط توسعهدهندگان و مشتریان میتوانند از طریق AI Studio و Vertex AI مدل جدید را آزمایش کنند. شما هم میتوانید ثبت نام کنید تا در لیست انتظار قرار بگیرید. دسترسی به مدل در طول دوره آزمایش رایگان خواهد بود.