MiniGPT-4 یک مدل هوش مصنوعی است که بر تقویت درک بینایی-زبان با استفاده از مدلهای پیشرفته زبان بزرگ تمرکز دارد. بر اساس این ایده است که قابلیتهای پیشرفته تولید چندوجهی مدلهایی مانند gpt-4 را میتوان به استفاده از یک بزرگ نسبت داد. مدل زبان (llm).
minigpt-4 یک رمزگذار بصری منجمد شده را با یک llm منجمد به نام vicuna با استفاده از یک لایه طرحکنش تراز میکند. قابلیتهای مشابه gpt-4 را نشان میدهد، مانند ایجاد توضیحات تصویری دقیق و ایجاد وبسایتها بر اساس پیشنویسهای دستنویس.
علاوه بر این، minigpt-4 میتواند داستانها و شعرهایی با الهام از تصاویر داده شده بنویسد، راهحلهایی برای مشکلات نشاندادهشده در تصاویر ارائه دهد، و حتی نحوه پخت و پز بر اساس عکسهای غذا را به کاربران آموزش دهد. معماری minigpt-4 شامل یک رمزگذار بینایی است که با vit q از قبل آموزش داده شده است. -فوق، یک لایه طرح خطی تک، و مدل پیشرفته زبان بزرگ ویکونا.
آموزش لایه خطی برای تراز کردن ویژگی های بصری با ویکونا ضروری است. این مدل از نظر محاسباتی بسیار کارآمد است و به تقریباً 5 میلیون جفت تصویر-متن تراز شده برای آموزش لایه طرح ریزی نیاز دارد.
- تولید توضیحات تصویری دقیق و شرحها
- کد وب سایت را بر اساس پیش نویس ها و طرح ها بسازید
- داستان سرایی و شعر نویسی الهام گرفته بر اساس تصاویر
جزئیات : Minigpt-4
قیمتگذاری :
رایگان
تعداد بازدید : 74
۱۴۰۲-۴-۲۱
برچسب ها :
توسعه
تصاویر
آدرس سایت :
Minigpt-4