ข่าว

Gemini ฉลาดขึ้นอีกขั้น! รองรับฟีเจอร์แก้ไขรูปภาพตามคำสั่ง (Prompt) แล้ว

AI (AI) | วันที่ : 1 พฤษภาคม 2568

จากข่าวการประกาศของ Google ที่เพิ่มความสามารถให้แชทบอท Gemini สามารถแก้ไขรูปภาพได้ตามคำสั่งข้อความ (prompt) ล่าสุดมีรายละเอียดเพิ่มเติมจากรายงานข่าวต่างๆ ซึ่งเผยให้เห็นถึงขีดความสามารถที่น่าสนใจยิ่งขึ้นของฟีเจอร์นี้

ความสามารถใหม่ในการแก้ไขรูปภาพนี้ ขับเคลื่อนโดยโมเดล AI ที่ชื่อว่า Gemini 2.0 Flash ซึ่งเป็นโมเดลที่ได้รับการออกแบบมาเพื่อการประมวลผลที่รวดเร็วและมีประสิทธิภาพ ผู้ใช้งานสามารถแก้ไขรูปภาพได้ทั้งรูปภาพที่สร้างขึ้นโดย AI ภายใน Gemini เอง และรูปภาพที่อัปโหลดเข้ามาจากอุปกรณ์ของผู้ใช้งาน

รายงานข่าวระบุว่า Gemini สามารถทำความเข้าใจคำสั่งแก้ไขรูปภาพด้วย ภาษามนุษย์ทั่วไป (natural language) และรองรับการแก้ไขแบบ สนทนาโต้ตอบ (conversational editing) ทำให้สามารถปรับเปลี่ยนและแก้ไขรูปภาพได้อย่างละเอียดและเป็นธรรมชาติในรูปแบบ ทีละขั้นตอน (multi-step editing) โดยระบบจะยังคงจดจำบริบทของการแก้ไขที่ทำไปก่อนหน้านี้ได้

ตัวอย่างความสามารถในการแก้ไขรูปภาพที่ Gemini ทำได้ตามคำสั่ง ได้แก่

ลบหรือเปลี่ยนฉากหลัง ของรูปภาพ
เพิ่มวัตถุ หรือองค์ประกอบอื่นๆ ที่ต้องการลงไป
แทนที่วัตถุ ที่มีอยู่ในรูปภาพ
ปรับเปลี่ยนรายละเอียดเฉพาะส่วน เช่น เปลี่ยนสีผมในรูปถ่ายบุคคล
ปรับเปลี่ยนสไตล์ ของรูปภาพ หรือองค์ประกอบในภาพ (เช่น เพิ่มหมวกให้สุนัข หรือเปลี่ยนพื้นหลังที่เป็นหญ้าให้กลายเป็นชายหาด)

ฟีเจอร์แก้ไขรูปภาพนี้เริ่มทยอยเปิดให้ผู้ใช้งาน Gemini ตั้งแต่ช่วงปลายเดือนเมษายน 2025 ที่ผ่านมา โดยสามารถใช้งานได้ทั้งใน แอปพลิเคชัน Gemini และบนเว็บไซต์ gemini.google.com Google ระบุว่าความสามารถนี้จะทยอยเปิดให้ผู้ใช้งานในกว่า 45 ภาษา และครอบคลุมในหลายประเทศทั่วโลกภายในไม่กี่สัปดาห์ข้างหน้า

สำหรับความปลอดภัยและความโปร่งใส Google ยืนยันว่ารูปภาพทั้งหมดที่ถูกสร้างขึ้นหรือแก้ไขโดยใช้ฟีเจอร์นี้ จะถูก ฝังลายน้ำดิจิทัล SynthID ซึ่งเป็นลายน้ำที่มองไม่เห็นด้วยตาเปล่า ตามมาตรฐานสำหรับรูปภาพที่สร้างโดย AI นอกจากนี้ Google ยังอยู่ในขั้นตอนการ ทดลองเพิ่มลายน้ำที่มองเห็นได้ บนรูปภาพที่สร้างโดย Gemini เพื่อเพิ่มความชัดเจนและป้องกันการนำไปใช้ในทางที่ผิด

ความสามารถนี้ต่อยอดมาจากการทดสอบที่เคยมีในแพลตฟอร์ม AI Studio (ปัจจุบันคือ Google AI Studio) สำหรับนักพัฒนา ซึ่งเปิดโอกาสให้นักพัฒนาได้ทดลองใช้งานฟีเจอร์สร้างและแก้ไขภาพโดยใช้โมเดล Gemini 2.0 Flash Experimental และ Imagen 3

การเพิ่มฟีเจอร์แก้ไขรูปภาพนี้เข้ามาใน Gemini นับเป็นการยกระดับความสามารถของแชทบอทให้เป็นผู้ช่วยแบบ Multimodal ที่สามารถทำงานร่วมกับรูปภาพได้อย่างมีประสิทธิภาพ ทำให้การสร้างสรรค์และปรับแต่งเนื้อหาด้วย AI เป็นเรื่องที่ง่ายและเข้าถึงได้มากยิ่งขึ้นสำหรับผู้ใช้งานทั่วไป โดยไม่จำเป็นต้องมีความเชี่ยวชาญในการใช้ซอฟต์แวร์แก้ไขรูปภาพที่ซับซ้อน

แหล่งที่มา blog.google