تصاویر واقعگرایانه با هوش مصنوعی: سادهتر از چیزی که فکر میکنی
ساخت تصاویر واقعگرایانه با هوش مصنوعی یکی از آن مهارتهاییست که ظاهراً پیچیده به نظر میرسد، ولی وقتی چند اصل ساده را رعایت کنی، نتیجهاش شگفتزدهات میکند. من ماهها با مدلهای مختلف کار کردهام و به نتایجی رسیدهام که شاید خلاف تصور رایج باشند — مخصوصاً دربارهی نحوهی پرامپتنویسی.
کدام مدلها واقعاً نتیجه میدهند؟
از بین دهها مدل تصویرساز که تست کردهام، دو مدل بیشتر از بقیه توجهم را جلب کردند:
- Nana (Banana Pro): ترکیب قیمت مناسب و کیفیت خروجیاش عالیست. مخصوصاً وقتی میخواهی تصاویر با نورپردازی طبیعی و جزئیات بالا بسازی، خیلی خوب عمل میکند.
- GPT Image: برای صحنهسازیهای پیچیدهتر و وقتی به درک بهتری از زمینه (context) نیاز داری، این مدل انتخاب من است.
این به معنی نادیده گرفتن مدلهای دیگر نیست، ولی وقتی هم قیمت و هم عملکرد را کنار هم بگذاری، این دو مدل بهترین تعادل را دارند. اگر میخواهی همین الان امتحان کنی، در استودیوی مدهوش دسترسی به مدلهای مختلف تصویرساز داری و میتوانی خودت مقایسه کنی.
بزرگترین اشتباهی که همه مرتکب میشوند
بگذار صادق باشم: مدتها از ChatGPT یا مدلهای دیگر میخواستم که پرامپت انگلیسی بنویسند، بعد آن را کپیپیست میکردم توی مدل تصویرساز. نتیجه؟ تصاویری که تکنیکی درست بودند ولی یک چیزیشان غیرطبیعی بود — انگار خیلی «تمیز» و «مصنوعی» از آب در میآمدند.
تا اینکه یک روز تصمیم گرفتم پرامپت را خودم، فارسی و خلاصه بنویسم. فرقش مثل شب و روز بود.
دلیلش چیست؟ وقتی از هوش مصنوعی میخواهی پرامپت بنویسد، معمولاً متن طولانی و پر از صفتهای تکراری تحویلت میدهد. مدل تصویرساز هم گیج میشود؛ نمیداند اولویت با کدام توصیف است. ولی وقتی خودت مستقیم و مختصر بنویسی — حتی فارسی — مدل دقیقاً میفهمد چه میخواهی.
فرمول پرامپت واقعگرایانه
بر اساس تجربهام، یک پرامپت خوب برای تصویر واقعگرایانه این المانها را دارد:
- نوع نما: مشخص کن از چه زاویهای میخواهی (POV، کلوزآپ، واید...)
- سوژه و عمل: دقیقاً چه کسی دارد چه کاری میکند
- محیط: یک یا دو جزئیات کلیدی دربارهی مکان
- رفرنس: یک عکس واقعی بهعنوان مرجع (اگر مدل اجازه میدهد)
و تمام. نه بیشتر.
نمونهی واقعی: پرامپتی که جواب داد
این آخرین پرامپتیست که استفاده کردم و نتیجهاش فوقالعاده شد:
«نمای POV همین زن در حالی که لباس آستینبلند مشکی پوشیده و دارد بند کفشهایش را میبندد — در جلوی در خانه روی پادری (محیط ایرانی بماند)» + یک عکس رفرنس
همین. بدون توضیح نورپردازی سینمایی، بدون ذکر رزولوشن ۸K، بدون لیست صفتهای فانتزی. و تصویر خروجی کاملاً منطقی و باورپذیر بود.
نکتهی کلیدی اینجاست: وقتی صحنه را مثل یک جملهی روزمره توصیف کنی — نه مثل یک دستورالعمل فنی — مدل بهتر درک میکند. انگار داری برای یک عکاس واقعی توضیح میدهی که چه عکسی بگیرد.
سه نکتهی طلایی که یاد گرفتم
- فارسی بنویس: مدلهای جدید فارسی را خوب میفهمند. نیازی به ترجمه نیست.
- کوتاهتر = بهتر: هر کلمهای که اضافه کنی، احتمال سردرگمی مدل بیشتر میشود.
- عکس رفرنس بده: یک عکس مرجع از سوژه، بیشتر از ۵۰ کلمه توضیح اضافه ارزش دارد.
جمعبندی
ساختن تصاویر واقعگرایانه با هوش مصنوعی نه به پرامپتهای طولانی نیاز دارد و نه به تسلط بر زبان انگلیسی. کافیست صحنهای که در ذهنت هست را ساده و صریح توصیف کنی، یک رفرنس ضمیمه کنی و به مدل اعتماد کنی. اگر هنوز امتحان نکردهای، مدهوش جای خوبی برای شروع است — همین الان یک پرامپت فارسی سهخطی بنویس و نتیجه را ببین.