معرفی Gemini 1.5 Pro؛ با پنجره متنی 1 میلیون توکنی

گوگل چندی پس از راه‌اندازی Gemini 1.0 Ultra، با یک مدل جدید برای رقابت با GPT-4 بازگشته است. این مدل Gemini 1.5 Pro است، جانشین Gemini 1.0 Pro که در حال حاضر به نسخه رایگان Gemini قدرت می‌بخشد. این نسخه از هوش مصنوعی در توانایی‌هایی مانند استدلال، برنامه‌ریزی و درک پیشرفت کرده است. از ویژگی‌های این نسخه می‌توان به ارائه پاسخ در زمان کوتاه تر، درک بهتر سوالات و توانایی دریافت حجم بزرگی از متن یا کد اشاره کرد.

در حالی که خانواده مدل‌های Gemini 1.0 پنجره متنی تا 32 هزار توکن دارند، مدل 1.5 Pro طول متن استاندارد را تا 128 هزار توکن افزایش داده است. علاوه بر آن، پنجره متنی عظیم تا 1 میلیون توکن را پشتیبانی می‌کند، عددی که بسیار بیشتر از GPT-4 Turbo با 128 هزار و Claude 2.1 با 200 هزار توکن است.

Gemini 1.5 Pro قادر به تحلیل تا ۷۰۰۰۰۰ کلمه یا ۳۰۰۰۰ خط کد در پیش‌نمایش خصوصی محدود است. این نسخه قادر به آنالیز صدا و ویدیو به زبان‌های مختلف است و از طریق API در Vertex AI برای پذیرش متن و تولید متن به عنوان خروجی قابل دسترسی است.

Gemini 1.5 Pro بر اساس معماری Mixture-of-Experts (MoE) ساخته شده است

گوگل می‌گوید Gemini 1.5 Pro یک مدل متوسط است، اما تقریباً همان عملکرد Gemini 1.0 Ultra را با استفاده از محاسبات کمتر دارد. مدل 1.5 Pro بر اساس معماری ترکیب کارشناسان (MoE) ساخته شده است، شبیه به مدل GPT-4 از OpenAI. این اولین باری است که گوگل به جای یک مدل تک چگال (single dense)، یک مدل MoE را منتشر می‌کند.

معماری Mixture-of-Experts (MoE) یک معماری در یادگیری عمیق است که چندین شبکه عصبی را ترکیب می‌کند، که هر کدام در یک وظیفه یا حوزه خاص تخصص دارند، تا خروجی دقیق‌تر و مقاوم‌تری تولید کنند. این رویکرد به ویژه برای وظایف پیچیده که نیاز به تخصص‌های متنوعی دارند، مانند پردازش زبان طبیعی، بینایی کامپیوتر یا سیستم‌های تصمیم‌گیری، مفید است. در معماری MoE، هر شبکه متخصص به طور مستقل آموزش داده می‌شود تا بر جنبه‌ای خاص از وظیفه تمرکز کند و سپس خروجی‌های همه متخصصان با استفاده از یک شبکه دروازه‌ای ترکیب می‌شوند تا خروجی نهایی را تولید کنند. شبکه دروازه‌ای یاد می‌گیرد که وزن‌های متخصصان را بر اساس داده‌های ورودی تخصیص دهد، به سیستم امکان می‌دهد که با شرایط و وظایف مختلف سازگار شود. MoE در بهبود عملکرد مدل‌های یادگیری عمیق در کاربردهای مختلف، از جمله طبقه‌بندی تصویر، ترجمه زبان و پاسخگویی به سوالات، موثر بوده است. این معماری به ویژه برای وظایفی که نیاز به ترکیب انواع مختلف دانش یا تخصص دارند، مانند ادغام اطلاعات بصری و متنی در زیرنویس تصاویر یا ترکیب اطلاعات زبانی و زمینه‌ای در ترجمه زبان، موثر است.

در صورتی که با مفهوم معماری MoE آشنا نیستید باید بگوییم، این ساختار شامل چندین مدل کارشناس کوچکتر است که بسته به وظیفه مورد نظر فعال می‌شوند. استفاده از مدل‌های تخصصی برای وظایف خاص، نتایج بهتر و کارآمدتری را ارائه می‌دهد.
geminipro1.5 jpg -

پنجره متنی بزرگ Gemini 1.5 Pro، می‌تواند مقادیر زیادی داده را یکجا دریافت کند. گوگل می‌گوید طول 1 میلیون متنی می‌تواند 700,000 کلمه یا 1 ساعت ویدیو یا 11 ساعت صوت یا کدهای برنامه‌نویسی با بیش از 30,000 خط کد را پردازش کند. برای آزمایش قابلیت بازیابی Gemini 1.5 Pro، با توجه به اینکه پنجره متنی بزرگی دارد، گوگل چالش سوزن در انبار را انجام داد و به گفته شرکت، سوزن (بیانیه متنی) را 99% مواقع بازیابی کرد. برای مقایسه ما بین Gemini 1.0 Ultra و GPT-4، ما همان آزمون را انجام دادیم، اما Gemini 1.0 Ultra قادر به بازیابی بیانیه نبود.

مدل 1.5 Pro در حال حاضر در پیش‌نمایش است و فقط توسعه‌دهندگان و مشتریان می‌توانند از طریق AI Studio و Vertex AI مدل جدید را آزمایش کنند. شما هم می‌توانید ثبت نام کنید تا در لیست انتظار قرار بگیرید. دسترسی به مدل در طول دوره آزمایش رایگان خواهد بود.

نقطه
Logo