-ซุนดาร์
ขอแนะนำ Gemini 2.0: โมเดล AI รุ่นใหม่ของเราสำหรับยุค Agentic AI
โดย Demis Hassabis, CEO และ Koray Kavukcuoglu, CTO ของ Google DeepMind ในนามของทีม Gemini
ในช่วง 1 ปีที่ผ่านมา เราได้สร้างความก้าวหน้าในด้าน AI (Artificial Intelligence) อย่างต่อเนื่อง และในวันนี้ เราจะเปิดตัวเวอร์ชันทดลองของ Gemini 2.0 Flash ซึ่งเป็นโมเดลแรกในตระกูล Gemini 2.0 และเป็นโมเดลอันทรงพลังที่ใช้เวลาในการตอบสนองต่ำและมาพร้อมประสิทธิภาพการทำงานที่ดียิ่งขึ้นด้วยเทคโนโลยีที่ล้ำสมัยของเรา
นอกจากนี้ เรายังจะแชร์ข้อมูลเกี่ยวกับขอบเขตการวิจัยด้าน Agentic AI ของเราด้วยการนำเสนอความสามารถในการทำงานกับข้อมูลหลายประเภท (Multimodal) แบบเนทีฟของโมเดลต้นแบบที่ขับเคลื่อนด้วย Gemini 2.0
Gemini 2.0 Flash
Gemini 2.0 Flash พัฒนาต่อยอดมาจากความสำเร็จของ Gemini 1.5 Flash ซึ่งเป็นโมเดลยอดนิยมสำหรับนักพัฒนาซอฟต์แวร์ โดยมีประสิทธิภาพการทำงานที่ดียิ่งขึ้นด้วยเวลาตอบสนองที่รวดเร็วในระดับเดียวกัน แต่จากการทดสอบด้วยเกณฑ์มาตรฐานหลัก พบว่า Gemini 2.0 Flash มีประสิทธิภาพเหนือกว่า Gemini 1.5 Pro ด้วยความเร็วถึง 2 เท่า นอกจากนี้ Gemini 2.0 Flash ยังมาพร้อมความสามารถใหม่ๆ ซึ่งนอกเหนือจากการรองรับอินพุตแบบ Multimodal เช่น รูปภาพ วิดีโอ และเสียงแล้ว ยังรองรับเอาต์พุตแบบ Multimodal ด้วยเช่นกัน เช่น รูปภาพที่สร้างขึ้นเองผสมกับข้อความและการอ่านออกเสียงข้อความ (Text to Speech หรือ TTS) ในหลายภาษาซึ่งสามารถปรับแต่งได้ นอกจากนี้ยังสามารถเรียกใช้เครื่องมือต่างๆ เช่น Google Search การเรียกใช้โค้ด รวมถึงฟังก์ชันของบุคคลที่สามที่ผู้ใช้กำหนดได้อีกด้วย
เป้าหมายของเราคือการนำโมเดลเหล่านี้ไปให้ผู้คนได้ใช้อย่างปลอดภัยและรวดเร็ว ในเดือนที่ผ่านมา เราได้เปิดให้ใช้งาน Gemini 2.0 เวอร์ชันทดลองเบื้องต้น และได้รับฟีดแบ็กที่ดีจากนักพัฒนาซอฟต์แวร์
Gemini 2.0 Flash พร้อมให้บริการแล้วในรูปแบบโมเดลทดลองสำหรับนักพัฒนาซอฟต์แวร์ผ่านทาง Gemini API ใน Google AI Studio และ Vertex AI โดยมีอินพุตแบบ Multimodal และเอาต์พุตข้อความพร้อมให้บริการสำหรับนักพัฒนาซอฟต์แวร์ทั้งหมด นอกจากนี้ การอ่านออกเสียงข้อความและการสร้างภาพแบบเนทีฟก็พร้อมให้บริการสำหรับพาร์ทเนอร์ที่เข้าร่วมการทดลองใช้ก่อนเปิดตัวด้วยเช่นกัน โดยจะพร้อมให้ใช้งานทั่วไปในเดือนมกราคม พร้อมด้วยโมเดลขนาดอื่นๆ เพิ่มเติม
นอกจากนี้ เรายังจะเปิดตัว Multimodal Live API ใหม่ที่มีอินพุตเสียงและวิดีโอสตรีมมิงแบบเรียลไทม์ และความสามารถในการใช้เครื่องมือต่างๆ ร่วมกันได้ เพื่อช่วยให้นักพัฒนาซอฟต์แวร์สามารถสร้างแอปพลิเคชันที่โต้ตอบได้แบบไดนามิก ดูรายละเอียดเพิ่มเติมเกี่ยวกับ Gemini 2.0 Flash และ Multimodal Live API ได้ที่บล็อกสำหรับนักพัฒนาซอฟต์แวร์ของเรา
Gemini 2.0 พร้อมใช้งานในแอป Gemini ซึ่งเป็นผู้ช่วย AI ของเรา
ตั้งแต่วันนี้เป็นต้นไป ผู้ใช้ Gemini ทั่วโลกสามารถเข้าถึงเวอร์ชันที่เพิ่มประสิทธิภาพการแชทของ Gemini 2.0 Flash Experimental ได้โดยเลือกจากเมนูแบบเลื่อนลงของโมเดลบนเดสก์ท็อปและเว็บบนอุปกรณ์เคลื่อนที่ และจะพร้อมใช้งานในแอป Gemini บนอุปกรณ์เคลื่อนที่ในเร็วๆ นี้ โดยโมเดลใหม่นี้จะทำให้ผู้ช่วย Gemini เป็นประโยชน์ต่อผู้ใช้ยิ่งขึ้น
ในช่วงต้นปีหน้า เราจะขยาย Gemini 2.0 ไปยังผลิตภัณฑ์อื่นๆ ของ Google เพิ่มเติม
ปลดล็อกประสบการณ์การใช้ Agentic AI ด้วย Gemini 2.0
ความสามารถในการดำเนินการของอินเทอร์เฟซผู้ใช้แบบเนทีฟของ Gemini 2.0 Flash ร่วมกับการปรับปรุงประสิทธิภาพในด้านอื่นๆ เช่น การให้เหตุผลแบบ Multimodal การทำความเข้าใจข้อมูลที่มีเนื้อหายาวๆ การปฏิบัติตามคำสั่งที่ซับซ้อนและการวางแผน การเรียกใช้ฟังก์ชันที่มีหลายองค์ประกอบ การใช้เครื่องมือแบบเนทีฟ และการตอบสนองที่เร็วยิ่งขึ้น โดยทั้งหมดนี้จะทำงานร่วมกันเพื่อมอบประสบการณ์การใช้งาน Agentic AI แบบใหม่
การประยุกต์ใช้ AI Agent ในทางปฏิบัตินั้นเต็มไปด้วยความเป็นไปได้มากมาย ซึ่งยังคงต้องมีการศึกษาวิจัยเพิ่มเติมอย่างต่อเนื่อง เรากำลังสำรวจขอบเขตใหม่นี้ด้วยโครงการต้นแบบที่สามารถช่วยให้ผู้คนทำสิ่งต่างๆ ให้สำเร็จลุล่วงได้ ซึ่งรวมถึงการอัปเดต Project Astra ซึ่งเป็นโครงการวิจัยต้นแบบของเราที่สำรวจความสามารถใหม่ๆ ของผู้ช่วย AI สากล Project Mariner ที่สำรวจวิธีใหม่ๆ ในการโต้ตอบระหว่างมนุษย์กับ AI Agent ในอนาคต โดยเริ่มจากเบราว์เซอร์ของคุณ และ Jules ซึ่งเป็น Code Agent ที่ทำงานด้วยระบบ AI ซึ่งสามารถช่วยเหลือนักพัฒนาซอฟต์แวร์ได้
แม้ว่าเราเพิ่งอยู่ในระยะเริ่มต้นของการพัฒนา แต่เราก็รู้สึกตื่นเต้นที่ได้เห็นว่าผู้ทดสอบที่เชื่อถือได้นั้นใช้ความสามารถใหม่เหล่านี้ให้เป็นประโยชน์อย่างไรบ้าง รวมถึงสิ่งที่เราได้เรียนรู้เพื่อที่จะทำให้ความสามารถเหล่านี้พร้อมใช้งานในผลิตภัณฑ์ต่างๆ มากขึ้นในอนาคต
Project Astra: AI Agent ที่ใช้ความเข้าใจแบบ Multimodal ในโลกแห่งความเป็นจริง
ตั้งแต่ที่เราเปิดตัว Project Astra ในงาน Google I/O เราก็ได้เรียนรู้จากผู้ทดสอบที่เชื่อถือได้ซึ่งใช้ Project Astra บนโทรศัพท์ Android ข้อเสนอแนะอันมีค่าของพวกเขาช่วยให้เราเข้าใจได้ดีขึ้นว่าผู้ช่วย AI สากลจะทำงานได้อย่างไรในทางปฏิบัติ รวมถึงผลกระทบต่อความปลอดภัยและจริยธรรม การปรับปรุง Project Astra ในเวอร์ชันล่าสุดที่ต่อยอดจาก Gemini 2.0 มีดังนี้
- บทสนทนาที่ดียิ่งขึ้น: ตอนนี้ Project Astra สามารถสนทนาได้ในหลายภาษาและใช้หลายภาษาปนกันได้ โดยเข้าใจสำเนียงและคำที่ไม่ค่อยคุ้นเคยได้ดีขึ้น
- การใช้งานเครื่องมือใหม่: Gemini 2.0 ช่วยให้ Project Astra สามารถใช้ Google Search, Google Lens และ Google Maps ได้ ทำให้มีประโยชน์มากขึ้นในฐานะผู้ช่วยในชีวิตประจำวันของคุณ
- หน่วยความจำที่ดีขึ้น: เราได้ปรับปรุงความสามารถของ Project Astra ในการจดจำสิ่งต่างๆ ภายใต้การควบคุมของคุณ โดยตอนนี้ Project Astra มีหน่วยความจำในเซสชันนานถึง 10 นาที และสามารถจดจำการสนทนากับคุณในอดีตได้มากขึ้น จึงปรับแต่งให้เหมาะกับคุณมากขึ้น
- การตอบสนองที่เร็วยิ่งขึ้น: ด้วยความสามารถใหม่ในการสตรีมและการเข้าใจเสียงแบบเนทีฟ Project Astra สามารถเข้าใจภาษาได้อย่างรวดเร็วในระดับที่เท่ากับการสนทนาของมนุษย์
เรากำลังหาวิธีที่จะนำความสามารถประเภทนี้มาใช้กับผลิตภัณฑ์ต่างๆ ของ Google เช่น แอป Gemini ผู้ช่วย AI ของเรา และผลิตภัณฑ์รูปแบบอื่นๆ เช่น แว่นตา และเรากำลังจะเริ่มขยายโปรแกรมผู้ทดสอบที่เชื่อถือได้ (Trusted Tester Program) ให้ครอบคลุมผู้คนมากขึ้น รวมถึงผู้ทดสอบกลุ่มเล็กๆ ที่จะเริ่มทดสอบ Project Astra บนแว่นตาต้นแบบในเร็วๆ นี้
Project Mariner: AI Agent ที่ช่วยให้คุณทำงานที่ซับซ้อนได้สำเร็จ
Project Mariner คือต้นแบบการวิจัยเบื้องต้นที่ต่อยอดจาก Gemini 2.0 ซึ่งสำรวจอนาคตของการโต้ตอบระหว่างมนุษย์กับ AI Agent โดยเริ่มจากเบราว์เซอร์ของคุณ โดยโมเดลต้นแบบนี้สามารถทำความเข้าใจและให้เหตุผลเกี่ยวกับข้อมูลต่างๆ บนหน้าจอเบราว์เซอร์ของคุณ รวมถึงพิกเซลและองค์ประกอบบนเว็บ เช่น ข้อความ โค้ด รูปภาพ และแบบฟอร์ม จากนั้นจึงใช้ข้อมูลดังกล่าวผ่านส่วนขยาย Chrome เวอร์ชันทดลองเพื่อทำงานต่างๆ ให้กับคุณ
แม้จะยังอยู่ในขั้นเริ่มต้น แต่ Project Mariner ก็แสดงให้เห็นว่าในทางเทคนิคแล้ว การนำ AI Agent ไปใช้งานบนเบราว์เซอร์นั้นสามารถทำได้ แม้ว่าในปัจจุบันการทำงานอาจจะยังไม่รวดเร็วพอและไม่แม่นยำเสมอไป แต่จะมีการพัฒนาให้ดีขึ้นอย่างรวดเร็วในอนาคต
เพื่อสร้างสิ่งนี้ขึ้นมาอย่างปลอดภัยและมีความรับผิดชอบ เราจึงดำเนินการวิจัยเชิงรุกเกี่ยวกับความเสี่ยงประเภทใหม่และการบรรเทาผลกระทบที่อาจเกิดขึ้น ในขณะเดียวกันก็เปิดโอกาสให้ผู้ใช้เข้ามามีส่วนร่วมด้วย ยกตัวอย่างเช่น Project Mariner ทำได้เพียงพิมพ์ เลื่อน หรือคลิกในแท็บที่ใช้งานอยู่บนเบราว์เซอร์ของคุณเท่านั้น และจะขอให้ผู้ใช้ยืนยันขั้นสุดท้ายก่อนดำเนินการที่ละเอียดอ่อนบางอย่าง เช่น การซื้อสินค้า เป็นต้น
ขณะนี้ผู้ทดสอบที่เชื่อถือได้กำลังเริ่มทดสอบ Project Mariner โดยใช้ส่วนขยาย Chrome เวอร์ชันทดลอง ในขณะเดียวกันเราก็จะเริ่มศึกษาในส่วนของระบบนิเวศเว็บควบคู่กันไปด้วย
Jules: AI Agent สำหรับนักพัฒนาซอฟต์แวร์
เรื่องต่อมาก็คือ เราจะสำรวจว่า AI Agent สามารถช่วยเหลือนักพัฒนาซอฟต์แวร์ด้วย Jules ได้อย่างไร Jules เป็น Code Agent เวอร์ชันทดลองที่ทำงานด้วยระบบ AI ที่ผสานรวมเข้ากับเวิร์กโฟลว์ GitHub โดยตรง Jules สามารถแก้ไขปัญหา พัฒนาแผน และดำเนินการได้ภายใต้การกำกับดูแลของนักพัฒนาซอฟต์แวร์ ความพยายามนี้เป็นส่วนหนึ่งของเป้าหมายในระยะยาวของเราในการสร้าง AI Agent ที่เป็นประโยชน์ในทุกด้าน รวมถึงการเขียนโค้ด
การใช้ AI Agent ในเกม และอื่นๆ
Google DeepMind มีประวัติอันยาวนานในการใช้เกมเพื่อช่วยให้โมเดล AI สามารถทำตามกฎ การวางแผน และตรรกะได้ดีขึ้น ตัวอย่างเช่น เมื่อสัปดาห์ที่ผ่านมา เราได้เปิดตัว Genie 2 ซึ่งเป็นโมเดล AI ของเราที่สามารถสร้างเกมแบบ 3 มิติได้หลากหลายรูปแบบจากภาพเพียงภาพเดียว เราได้ต่อยอดแนวทางนี้ด้วยการสร้าง AI Agent โดยใช้ Gemini 2.0 ซึ่งสามารถช่วยนำทางคุณในโลกเสมือนจริงของวิดีโอเกมได้ Genie 2 สามารถให้เหตุผลเกี่ยวกับเกมโดยอ้างอิงจากการกระทำบนหน้าจอเพียงอย่างเดียว และเสนอแนะว่าจะต้องทำอะไรต่อไปในการสนทนาแบบเรียลไทม์
เรากำลังร่วมมือกับนักพัฒนาเกมชั้นนำ เช่น Supercell เพื่อสำรวจวิธีการทำงานของ AI Agent เหล่านี้ โดยทดสอบความสามารถในการตีความกฎและความท้าทายในเกมหลากหลายประเภท ตั้งแต่เกมแนววางแผนกลยุทธ์อย่าง “Clash of Clans” ไปจนถึงเกมจำลองการทำฟาร์มอย่าง “Hay Day”
นอกจากจะทำหน้าที่เป็นเพื่อนเล่นเกมเสมือนจริงแล้ว AI Agent เหล่านี้ยังสามารถใช้ Google Search เพื่อเชื่อมต่อคุณกับข้อมูลในการเล่นเกมที่มีอยู่อย่างมากมายบนเว็บได้อีกด้วย
นอกจากการสำรวจความสามารถของ AI Agent ในโลกเสมือนจริงแล้ว เรายังกำลังทดลองใช้ AI Agent ที่สามารถช่วยเหลือผู้ใช้ในโลกแห่งความเป็นจริงได้ด้วยการนำความสามารถในการให้เหตุผลของ Gemini 2.0 มาใช้กับหุ่นยนต์ แม้ว่าจะยังอยู่ในช่วงเริ่มต้น แต่เราก็รู้สึกตื่นเต้นกับศักยภาพของ AI Agent ที่สามารถให้ความช่วยเหลือในสภาพแวดล้อมทางกายภาพได้
ดูข้อมูลเพิ่มเติมเกี่ยวกับต้นแบบการวิจัยและการทดลองต่างๆ ของเราได้ที่ labs.google
การสร้าง AI Agent อย่างมีความรับผิดชอบในยุค Agentic AI
Gemini 2.0 Flash และต้นแบบการวิจัยของเราช่วยให้เราสามารถทดสอบความสามารถใหม่ๆ ของ AI Agent และทำกระบวนการนี้ซ้ำๆ เพื่อทำการปรับปรุงให้ได้ผลลัพธ์ตามที่ต้องการ ซึ่งในที่สุดแล้วจะช่วยให้ผลิตภัณฑ์ของ Google มีประโยชน์มากยิ่งขึ้น
ในขณะที่เราพัฒนาเทคโนโลยีใหม่เหล่านี้ เราก็ตระหนักถึงความรับผิดชอบที่ตามมาและคำถามมากมายเกี่ยวกับ AI Agent ในเรื่องของความปลอดภัย นั่นคือเหตุผลที่เราใช้แนวทางการสำรวจและการพัฒนาแบบค่อยเป็นค่อยไป โดยดำเนินการวิจัยต้นแบบหลายๆ แบบ ดำเนินการฝึกอบรมด้านความปลอดภัยซ้ำๆ ทำงานร่วมกับผู้ทดสอบที่เชื่อถือได้และผู้เชี่ยวชาญภายนอก ดำเนินการประเมินความเสี่ยงและการประกันด้านความปลอดภัยอย่างครอบคลุม
ตัวอย่างเช่น:
- ในกระบวนการด้านความปลอดภัย เราได้ทำงานร่วมกับคณะกรรมการด้านความรับผิดชอบและความปลอดภัย (Responsibility and Safety Committee หรือ RSC) ซึ่งเป็นกลุ่มผู้ตรวจสอบภายในของเรามายาวนาน เพื่อระบุและทำความเข้าใจความเสี่ยงที่อาจเกิดขึ้น
- ความสามารถในการให้เหตุผลของ Gemini 2.0 ช่วยให้เกิดความก้าวหน้าครั้งสำคัญในแนวทางการทำงานของ Red Team ที่นำ AI เข้ามาช่วย ซึ่งรวมถึงความสามารถในการตรวจจับความเสี่ยง ตลอดจนการประเมินและการสร้างข้อมูลฝึกโดยอัตโนมัติเพื่อลดความเสี่ยง ซึ่งหมายความว่าเราสามารถเพิ่มประสิทธิภาพของโมเดลเพื่อความปลอดภัยได้ดียิ่งขึ้น
- เนื่องจากความสามารถในการประมวลผลข้อมูลหลายรูปแบบ (Multimodality) ของ Gemini 2.0 ทำให้ผลลัพธ์ที่เป็นไปได้มีความซับซ้อนมากขึ้น เราจะยังคงประเมินและฝึกโมเดลสำหรับอินพุตและเอาต์พุตของภาพและเสียงเพื่อช่วยปรับปรุงความปลอดภัย
- ในส่วนของ Project Astra เรากำลังสำรวจแนวทางการบรรเทาผลกระทบที่อาจเกิดขึ้นกับผู้ใช้ที่แชร์ข้อมูลที่ละเอียดอ่อนกับ AI Agent โดยไม่ได้ตั้งใจ และเราได้สร้างการควบคุมความเป็นส่วนตัวไว้แล้ว ซึ่งทำให้ผู้ใช้สามารถลบเซสชันต่างๆ ได้อย่างง่ายดาย นอกจากนี้ เรายังดำเนินการค้นคว้าวิธีการต่างๆ เพื่อให้แน่ใจว่า AI Agent ทำหน้าที่เป็นแหล่งข้อมูลที่เชื่อถือได้และไม่ดำเนินการใดๆ ที่ไม่ได้ตั้งใจในนามของผู้ใช้
- สำหรับ Project Mariner เรากำลังดำเนินการเพื่อให้แน่ใจว่าโมเดลเรียนรู้ที่จะจัดลำดับความสำคัญให้คำสั่งของผู้ใช้อยู่เหนือความพยายามของบุคคลที่สามในการแทรกพรอมต์ (Prompt Injection) เพื่อให้สามารถระบุคำสั่งที่อาจเป็นอันตรายจากแหล่งภายนอกและป้องกันการใช้งานในทางที่ผิดได้ การดำเนินการในส่วนนี้ช่วยป้องกันไม่ให้ผู้ใช้ตกเป็นเหยื่อของการฉ้อโกงและฟิชชิงผ่านช่องทางต่างๆ เช่น คำสั่งที่เป็นอันตรายที่ซ่อนอยู่ในอีเมล เอกสาร หรือเว็บไซต์ต่างๆ
เราเชื่อมั่นอย่างยิ่งว่าวิธีเดียวที่จะสร้าง AI ได้คือการมีความรับผิดชอบตั้งแต่เริ่มต้น และเราจะยังคงให้ความสำคัญกับการทำให้ความปลอดภัยและความรับผิดชอบเป็นองค์ประกอบหลักในกระบวนการพัฒนาโมเดล AI และ AI Agent ของเราให้มีประสิทธิภาพมากยิ่งขึ้นต่อไป
Gemini 2.0, AI Agent และอื่นๆ
การเปิดตัวในวันนี้ถือเป็นก้าวใหม่สำหรับโมเดล Gemini ของเรา ซึ่งการเปิดตัว Gemini 2.0 Flash และต้นแบบการวิจัยที่สำรวจความเป็นไปได้ของ AI Agent ถือเป็นอีกหนึ่งความก้าวหน้าครั้งสำคัญของเราในยุค Gemini และเราจะยังคงเดินหน้าสำรวจความเป็นไปได้ใหม่ๆ โดยคำนึงถึงความปลอดภัยควบคู่กันไป เพื่อต่อยอดไปสู่ยุคของ AGI (Artificial General Intelligence)