گوگل جمینی (Gemini) چیست؟

۰۱/۰۳/۱۴۰۳

در این مطلب می خوانید: نمایش فهرست

گوگل تازه‌ترین و قدرتمندترین مدل هوش مصنوعی خود را منتشر کرده است، اما قابلیت‌های آن چیست؟
جمینی که قبلاً با نام بارد شناخته می‌شد یک مدل هوش مصنوعی جدید و پیشرفته از گوگل است که توانایی درک متن، تصویر، ویدئو و صدا را دارد. به عنوان یک مدل چند رسانه‌ای، جمینی قادر به انجام وظایف پیچیده در ریاضیات، فیزیک و سایر زمینه‌ها معرفی شده است، همچنین می‌تواند کد با کیفیت بالا در زبان‌های برنامه‌نویسی مختلف را درک و تولید کند.
در حال حاضر این مدل از طریق ادغام با گوگل بارد (Google Bard) و گوگل پیکسل ۸ (Google Pixel 8) در دسترس است و به تدریج در دیگر خدمات گوگل گنجانده خواهد شد.

دنیس هاسابیس، مدیرعامل و از بنیانگذاران Google DeepMind، بیان کرده که «جمینی حاصل تلاش‌های گسترده و همکاری تیم‌های مختلف گوگل، از جمله همکاران ما در Google Research است. جمینی از پایه و اساس برای یک مدل چندوجهی بودن ساخته شده است و به این معناست که می‌تواند به طور کلی درک کند، به صورت ناپیوسته عمل کند و انواع مختلفی از اطلاعات از جمله متن، کد، صوت، تصویر و ویدئو را درک و ترکیب نماید.»

چه کسی جمینی را ساخت؟

جمینی توسط Google و Alphabet، شرکت مادر گوگل، ایجاد و به عنوان پیشرفته‌ترین مدل هوش مصنوعی تا به امروز این شرکت منتشر شد. Google DeepMind نیز سهم قابل توجهی در توسعه جمینی داشته است.

آیا نسخه‌های مختلفی از جمینی وجود دارد؟

Google، جمینی را به عنوان یک مدل انعطاف‌پذیر توصیف می‌کند که قادر به اجرا روی همه چیز، از مراکز داده گوگل گرفته تا دستگاه‌های تلفن همراه است. به منظور دستیابی به این قابلیت مقیاس‌پذیری، جمینی در سه اندازه منتشر می‌شود: جمینی نانو، جمینی پرو و جمینی اولترا.

جمینی نانو

Gemini Nano

جمینی نانو برای اجرا روی گوشی‌های هوشمند، به خصوص گوگل پیکسل ۸، طراحی شده است. این مدل برای انجام وظایف روی دستگاه است که نیازمند پردازش موثر AI بدون نیاز به اتصال به سرورهای خارجی است، مانند پیشنهاد پاسخ‌ها در درون برنامه‌های چت یا خلاصه‌سازی متون.

جمینی پرو

Gemini Pro

جمینی پرو که روی مراکز داده‌ی گوگل اجرا می‌شود، برای به کارگیری در جدیدترین نسخه‌ی چت‌بات AI شرکت، یعنی بارد، طراحی شده است. این مدل قادر به ارائه‌ی زمان پاسخ‌دهی سریع و درک پرسش‌های پیچیده است.

جمینی اولترا

Gemini Ultra

گرچه جمینی اولترا هنوز برای استفاده‌ی گسترده در دسترس نیست، اما گوگل آن را به عنوان تواناترین و پیشرفته ترین مدل خود توصیف می‌کند که در 30 معیار از 32 معیار پرکاربرد دانشگاهی مورد استفاده در تحقیق و توسعه مدل زبان بزرگ (LLM)، فراتر رفته است. این مدل برای وظایف بسیار پیچیده طراحی شده و قرار است پس از اتمام فاز کنونی آزمایش‌هایش، منتشر شود.

چگونه می‌توان به جمینی دسترسی پیدا کرد؟

جمینی اکنون در محصولات گوگل در اندازه‌های نانو و پرو، مانند تلفن همراه پیکسل 8 و چت‌بات بارد، موجود است. گوگل قصد دارد با گذشت زمان جمینی را در خدمات جستجو، تبلیغات، کروم و سایر سرویس‌های خود ادغام کند.
توسعه‌دهندگان و مشتریان شرکتی از تاریخ 13 دسامبر می‌توانند از طریق API جمینی در Google’s AI Studio و Google Cloud Vertex AI، به جمینی پرو دسترسی پیدا کنند. توسعه‌دهندگان اندروید نیز به جمینی نانو از طریق AICore دسترسی خواهند داشت که بر پایه‌ی پیش‌نمایش زودهنگام در دسترس خواهد بود.

تفاوت جمینی با سایر مدل‌های هوش مصنوعی مانند GPT-4 چیست؟

به نظر می‌رسد مدل جدید جمینی گوگل یکی از بزرگ‌ترین و پیشرفته‌ترین مدل‌های هوش مصنوعی تا به امروز باشد، اما انتشار مدل اولترا است که این موضوع را به طور قطع تعیین می‌کند. در مقایسه با دیگر مدل‌های محبوبی که چت‌بات‌های هوش مصنوعی را به کار می‌برند، جمینی به دلیل ویژگی محلی چند حالته متمایز است، در حالی که سایر مدل‌ها مانند GPT-4، برای این که واقعا چندحالته باشند، به پلاگین‌ها و ادغام‌ها متکی هستند.

در مقایسه با GPT-4، که یک مدل عمدتاً مبتنی بر متن است، Gemini به راحتی وظایف چندرسانه‌ای را انجام می‌دهد. GPT-4 در مورد وظایف مرتبط با زبان، مانند تولید محتوا و تحلیل متن پیچیده، بسیار عالی عمل می‌کند اما برای تحلیل تصویر و دسترسی به وب از پلاگین‌های OpenAI استفاده می‌کند و برای تولید تصاویر به DALL-E 3 و پردازش صوت به Whisper وابسته است.
همچنین به نظر می‌رسد Gemini گوگل نسبت به سایر مدل‌های موجود، بیشتر محصول-محور است. این مدل یا در اکوسیستم شرکت یکپارچه شده است یا برنامه‌هایی برای چنین کاری دارد، چرا که هم Bard و هم دستگاه‌های Pixel 8 را قدرت می‌بخشد. سایر مدل‌ها، مانند GPT-4 و Llama متا، بیشتر خدمات‌محور هستند و برای توسعه‌دهندگان ثالث در برنامه‌ها، ابزارها و خدمات مختلف در دسترس قرار دارند.

سوالات متداول

چرا جمینی مهم است؟

جمینی به عنوان پرقدرت‌ترین مدل هوش مصنوعی تاکنون شناخته شده است و قابلیت‌های پردازش و درک داده‌های دوربرد را داراست که مناسب برای وظایفی از جمله تولید متن، ترجمه زبان و حل مسائل پیچیده است.

چگونه می‌توان از جمینی استفاده کرد؟

به عنوان بهترین برنامه هوش مصنوعی گوگل برای اندروید، Google Assistant، که قابل دانلود از بازار است،از قابلیت‌های جمینی بهره می‌برد.

تفاوت جمینی با بقیه در چیست ؟

جمینی قرار است اطلاعات خود را از دل وب به‌روز کند که این ویژگی آن را از سایر رقبا متمایز می‌کند.

گوگل جمینی برای چه کاربردی استفاده می‌شود؟

مدل‌های گوگل جمینی چندرسانه‌ای هستند و قادر به انجام وظایفی مانند تبدیل گفتار به متن، ترجمه، زیرنویس کردن تصاویر و تولید آثار هنری می‌باشند. قابلیت‌های آن براساس مدل استفاده شده متفاوت است.

آیا استفاده از گوگل جمینی رایگان است؟

نسخه‌های پایه‌ای گوگل جمینی رایگان هستند. می‌توانید به جمینی نانو در گوشی پیکسل 8 یا جمینی پرو در برنامه چت جمینی، استودیو هوش مصنوعی گوگل و Vertex دسترسی داشته باشید. جمینی اولترا در جمینی پیشرفته از طریق برنامه گوگل وان AI پریمیوم با قیمت 19.99 دلار ماهانه در دسترس است.

معایب هوش مصنوعی جمینی چیست؟

گوگل اظهار می‌دارد که هوش مصنوعی جمینی ممکن است در انجام وظایف خاصی مانند مکان‌یابی دقیق اشیاء در تصاویر یا پردازش داده‌ها از ویدیوهای طولانی با مشکل مواجه شود. برای استفاده پزشکی توصیه نمی‌شود و ممکن است در برخی از معادلات ریاضی دقت کمتری داشته باشد.

گوگل جمینی نانو چیست؟

جمینی نانو یک مدل سبک است که در دو اندازه موجود است: نانو-1 (1.8 میلیارد پارامتر) و نانو-2 (3.25 میلیارد پارامتر). این مدل قابلیت‌هایی مانند پاسخ هوشمند در Gboard و خلاصه‌سازی در برنامه ضبط صدا در پیکسل 8 پرو را به قدرت می‌رساند.

گوگل جمینی پرو چیست؟

گوگل جمینی پرو نسخه اصلی است که ربات چت Bard را به قدرت می‌رساند و در انجام زنجیره‌های استدلال پیچیده تبحر دارد اما ممکن است در حل مسائل ریاضی پیچیده کمی مشکل داشته باشد. این مدل قادر به پردازش مقادیر زیادی از متن، کد، صوت و ویدیو است.

گوگل جمینی اولترا چیست؟

گوگل جمینی اولترا پیشرفته‌ترین مدل هوش مصنوعی گوگل است که قادر به کمک در انجام وظایف مختلف از تکالیف فیزیک گرفته تا تولید تصاویر می‌باشد، اما هنوز به طور مستقیم در دسترس مصرف‌کنندگان قرار نگرفته است. به این مدل می‌توان از طریق چت‌بات پیشرفته جمینی با اشتراک در برنامه پریمیوم گوگل وان AI دسترسی پیدا کرد.

قدرت مدل‌های گوگل جمینی چقدر است؟

مدل‌ها از نظر توانایی‌ متفاوت هستند، با اولترا که پیشرفته‌ترین است و پس از آن نسخه‌های پرو و نانو که برای وظایف و اندازه‌های مختلف بهینه شده‌اند، همگی در درک متن، تصاویر، ویدئوها، صدا، کد و موارد دیگر برجسته هستند.