-ซุนดาร์
ขอแนะนำ Gemini 2.0: โมเดล AI รุ่นใหม่ของเราสำหรับยุค Agentic AI
โดย Demis Hassabis, CEO และ Koray Kavukcuoglu, CTO ของ Google DeepMind ในนามของทีม Gemini
ในช่วง 1 ปีที่ผ่านมา เราได้สร้างความก้าวหน้าในด้าน AI (Artificial Intelligence) อย่างต่อเนื่อง และในวันนี้ เราจะเปิดตัวเวอร์ชันทดลองของ Gemini 2.0 Flash ซึ่งเป็นโมเดลแรกในตระกูล Gemini 2.0 และเป็นโมเดลอันทรงพลังที่ใช้เวลาในการตอบสนองต่ำและมาพร้อมประสิทธิภาพการทำงานที่ดียิ่งขึ้นด้วยเทคโนโลยีที่ล้ำสมัยของเรา
นอกจากนี้ เรายังจะแชร์ข้อมูลเกี่ยวกับขอบเขตการวิจัยด้าน Agentic AI ของเราด้วยการนำเสนอความสามารถในการทำงานกับข้อมูลหลายประเภท (Multimodal) แบบเนทีฟของโมเดลต้นแบบที่ขับเคลื่อนด้วย Gemini 2.0
Gemini 2.0 Flash
Gemini 2.0 Flash พัฒนาต่อยอดมาจากความสำเร็จของ Gemini 1.5 Flash ซึ่งเป็นโมเดลยอดนิยมสำหรับนักพัฒนาซอฟต์แวร์ โดยมีประสิทธิภาพการทำงานที่ดียิ่งขึ้นด้วยเวลาตอบสนองที่รวดเร็วในระดับเดียวกัน แต่จากการทดสอบด้วยเกณฑ์มาตรฐานหลัก พบว่า Gemini 2.0 Flash มีประสิทธิภาพเหนือกว่า Gemini 1.5 Pro ด้วยความเร็วถึง 2 เท่า นอกจากนี้ Gemini 2.0 Flash ยังมาพร้อมความสามารถใหม่ๆ ซึ่งนอกเหนือจากการรองรับอินพุตแบบ Multimodal เช่น รูปภาพ วิดีโอ และเสียงแล้ว ยังรองรับเอาต์พุตแบบ Multimodal ด้วยเช่นกัน เช่น รูปภาพที่สร้างขึ้นเองผสมกับข้อความและการอ่านออกเสียงข้อความ (Text to Speech หรือ TTS) ในหลายภาษาซึ่งสามารถปรับแต่งได้ นอกจากนี้ยังสามารถเรียกใช้เครื่องมือต่างๆ เช่น Google Search การเรียกใช้โค้ด รวมถึงฟังก์ชันของบุคคลที่สามที่ผู้ใช้กำหนดได้อีกด้วย
เป้าหมายของเราคือการนำโมเดลเหล่านี้ไปให้ผู้คนได้ใช้อย่างปลอดภัยและรวดเร็ว ในเดือนที่ผ่านมา เราได้เปิดให้ใช้งาน Gemini 2.0 เวอร์ชันทดลองเบื้องต้น และได้รับฟีดแบ็กที่ดีจากนักพัฒนาซอฟต์แวร์
Gemini 2.0 Flash พร้อมให้บริการแล้วในรูปแบบโมเดลทดลองสำหรับนักพัฒนาซอฟต์แวร์ผ่านทาง Gemini API ใน Google AI Studio และ Vertex AI โดยมีอินพุตแบบ Multimodal และเอาต์พุตข้อความพร้อมให้บริการสำหรับนักพัฒนาซอฟต์แวร์ทั้งหมด นอกจากนี้ การอ่านออกเสียงข้อความและการสร้างภาพแบบเนทีฟก็พร้อมให้บริการสำหรับพาร์ทเนอร์ที่เข้าร่วมการทดลองใช้ก่อนเปิดตัวด้วยเช่นกัน โดยจะพร้อมให้ใช้งานทั่วไปในเดือนมกราคม พร้อมด้วยโมเดลขนาดอื่นๆ เพิ่มเติม
นอกจากนี้ เรายังจะเปิดตัว Multimodal Live API ใหม่ที่มีอินพุตเสียงและวิดีโอสตรีมมิงแบบเรียลไทม์ และความสามารถในการใช้เครื่องมือต่างๆ ร่วมกันได้ เพื่อช่วยให้นักพัฒนาซอฟต์แวร์สามารถสร้างแอปพลิเคชันที่โต้ตอบได้แบบไดนามิก ดูรายละเอียดเพิ่มเติมเกี่ยวกับ Gemini 2.0 Flash และ Multimodal Live API ได้ที่บล็อกสำหรับนักพัฒนาซอฟต์แวร์ของเรา
Gemini 2.0 พร้อมใช้งานในแอป Gemini ซึ่งเป็นผู้ช่วย AI ของเรา
ตั้งแต่วันนี้เป็นต้นไป ผู้ใช้ Gemini ทั่วโลกสามารถเข้าถึงเวอร์ชันที่เพิ่มประสิทธิภาพการแชทของ Gemini 2.0 Flash Experimental ได้โดยเลือกจากเมนูแบบเลื่อนลงของโมเดลบนเดสก์ท็อปและเว็บบนอุปกรณ์เคลื่อนที่ และจะพร้อมใช้งานในแอป Gemini บนอุปกรณ์เคลื่อนที่ในเร็วๆ นี้ โดยโมเดลใหม่นี้จะทำให้ผู้ช่วย Gemini เป็นประโยชน์ต่อผู้ใช้ยิ่งขึ้น
ในช่วงต้นปีหน้า เราจะขยาย Gemini 2.0 ไปยังผลิตภัณฑ์อื่นๆ ของ Google เพิ่มเติม
ปลดล็อกประสบการณ์การใช้ Agentic AI ด้วย Gemini 2.0
ความสามารถในการดำเนินการของอินเทอร์เฟซผู้ใช้แบบเนทีฟของ Gemini 2.0 Flash ร่วมกับการปรับปรุงประสิทธิภาพในด้านอื่นๆ เช่น การให้เหตุผลแบบ Multimodal การทำความเข้าใจข้อมูลที่มีเนื้อหายาวๆ การปฏิบัติตามคำสั่งที่ซับซ้อนและการวางแผน การเรียกใช้ฟังก์ชันที่มีหลายองค์ประกอบ การใช้เครื่องมือแบบเนทีฟ และการตอบสนองที่เร็วยิ่งขึ้น โดยทั้งหมดนี้จะทำงานร่วมกันเพื่อมอบประสบการณ์การใช้งาน Agentic AI แบบใหม่
การประยุกต์ใช้ AI Agent ในทางปฏิบัตินั้นเต็มไปด้วยความเป็นไปได้มากมาย ซึ่งยังคงต้องมีการศึกษาวิจัยเพิ่มเติมอย่างต่อเนื่อง เรากำลังสำรวจขอบเขตใหม่นี้ด้วยโครงการต้นแบบที่สามารถช่วยให้ผู้คนทำสิ่งต่างๆ ให้สำเร็จลุล่วงได้ ซึ่งรวมถึงการอัปเดต Project Astra ซึ่งเป็นโครงการวิจัยต้นแบบของเราที่สำรวจความสามารถใหม่ๆ ของผู้ช่วย AI สากล Project Mariner ที่สำรวจวิธีใหม่ๆ ในการโต้ตอบระหว่างมนุษย์กับ AI Agent ในอนาคต โดยเริ่มจากเบราว์เซอร์ของคุณ และ Jules ซึ่งเป็น Code Agent ที่ทำงานด้วยระบบ AI ซึ่งสามารถช่วยเหลือนักพัฒนาซอฟต์แวร์ได้
แม้ว่าเราเพิ่งอยู่ในระยะเริ่มต้นของการพัฒนา แต่เราก็รู้สึกตื่นเต้นที่ได้เห็นว่าผู้ทดสอบที่เชื่อถือได้นั้นใช้ความสามารถใหม่เหล่านี้ให้เป็นประโยชน์อย่างไรบ้าง รวมถึงสิ่งที่เราได้เรียนรู้เพื่อที่จะทำให้ความสามารถเหล่านี้พร้อมใช้งานในผลิตภัณฑ์ต่างๆ มากขึ้นในอนาคต
Project Astra: AI Agent ที่ใช้ความเข้าใจแบบ Multimodal ในโลกแห่งความเป็นจริง
ตั้งแต่ที่เราเปิดตัว Project Astra ในงาน Google I/O เราก็ได้เรียนรู้จากผู้ทดสอบที่เชื่อถือได้ซึ่งใช้ Project Astra บนโทรศัพท์ Android ข้อเสนอแนะอันมีค่าของพวกเขาช่วยให้เราเข้าใจได้ดีขึ้นว่าผู้ช่วย AI สากลจะทำงานได้อย่างไรในทางปฏิบัติ รวมถึงผลกระทบต่อความปลอดภัยและจริยธรรม การปรับปรุง Project Astra ในเวอร์ชันล่าสุดที่ต่อยอดจาก Gemini 2.0 มีดังนี้
- บทสนทนาที่ดียิ่งขึ้น: ตอนนี้ Project Astra สามารถสนทนาได้ในหลายภาษาและใช้หลายภาษาปนกันได้ โดยเข้าใจสำเนียงและคำที่ไม่ค่อยคุ้นเคยได้ดีขึ้น
- การใช้งานเครื่องมือใหม่: Gemini 2.0 ช่วยให้ Project Astra สามารถใช้ Google Search, Google Lens และ Google Maps ได้ ทำให้มีประโยชน์มากขึ้นในฐานะผู้ช่วยในชีวิตประจำวันของคุณ
- หน่วยความจำที่ดีขึ้น: เราได้ปรับปรุงความสามารถของ Project Astra ในการจดจำสิ่งต่างๆ ภายใต้การควบคุมของคุณ โดยตอนนี้ Project Astra มีหน่วยความจำในเซสชันนานถึง 10 นาที และสามารถจดจำการสนทนากับคุณในอดีตได้มากขึ้น จึงปรับแต่งให้เหมาะกับคุณมากขึ้น
- การตอบสนองที่เร็วยิ่งขึ้น: ด้วยความสามารถใหม่ในการสตรีมและการเข้าใจเสียงแบบเนทีฟ Project Astra สามารถเข้าใจภาษาได้อย่างรวดเร็วในระดับที่เท่ากับการสนทนาของมนุษย์
เรากำลังหาวิธีที่จะนำความสามารถประเภทนี้มาใช้กับผลิตภัณฑ์ต่างๆ ของ Google เช่น แอป Gemini ผู้ช่วย AI ของเรา และผลิตภัณฑ์รูปแบบอื่นๆ เช่น แว่นตา และเรากำลังจะเริ่มขยายโปรแกรมผู้ทดสอบที่เชื่อถือได้ (Trusted Tester Program) ให้ครอบคลุมผู้คนมากขึ้น รวมถึงผู้ทดสอบกลุ่มเล็กๆ ที่จะเริ่มทดสอบ Project Astra บนแว่นตาต้นแบบในเร็วๆ นี้
Project Mariner: AI Agent ที่ช่วยให้คุณทำงานที่ซับซ้อนได้สำเร็จ
Project Mariner คือต้นแบบการวิจัยเบื้องต้นที่ต่อยอดจาก Gemini 2.0 ซึ่งสำรวจอนาคตของการโต้ตอบระหว่างมนุษย์กับ AI Agent โดยเริ่มจากเบราว์เซอร์ของคุณ โดยโมเดลต้นแบบนี้สามารถทำความเข้าใจและให้เหตุผลเกี่ยวกับข้อมูลต่างๆ บนหน้าจอเบราว์เซอร์ของคุณ รวมถึงพิกเซลและองค์ประกอบบนเว็บ เช่น ข้อความ โค้ด รูปภาพ และแบบฟอร์ม จากนั้นจึงใช้ข้อมูลดังกล่าวผ่านส่วนขยาย Chrome เวอร์ชันทดลองเพื่อทำงานต่างๆ ให้กับคุณ
แม้จะยังอยู่ในขั้นเริ่มต้น แต่ Project Mariner ก็แสดงให้เห็นว่าในทางเทคนิคแล้ว การนำ AI Agent ไปใช้งานบนเบราว์เซอร์นั้นสามารถทำได้ แม้ว่าในปัจจุบันการทำงานอาจจะยังไม่รวดเร็วพอและไม่แม่นยำเสมอไป แต่จะมีการพัฒนาให้ดีขึ้นอย่างรวดเร็วในอนาคต
เพื่อสร้างสิ่งนี้ขึ้นมาอย่างปลอดภัยและมีความรับผิดชอบ เราจึงดำเนินการวิจัยเชิงรุกเกี่ยวกับความเสี่ยงประเภทใหม่และการบรรเทาผลกระทบที่อาจเกิดขึ้น ในขณะเดียวกันก็เปิดโอกาสให้ผู้ใช้เข้ามามีส่วนร่วมด้วย ยกตัวอย่างเช่น Project Mariner ทำได้เพียงพิมพ์ เลื่อน หรือคลิกในแท็บที่ใช้งานอยู่บนเบราว์เซอร์ของคุณเท่านั้น และจะขอให้ผู้ใช้ยืนยันขั้นสุดท้ายก่อนดำเนินการที่ละเอียดอ่อนบางอย่าง เช่น การซื้อสินค้า เป็นต้น
ขณะนี้ผู้ทดสอบที่เชื่อถือได้กำลังเริ่มทดสอบ Project Mariner โดยใช้ส่วนขยาย Chrome เวอร์ชันทดลอง ในขณะเดียวกันเราก็จะเริ่มศึกษาในส่วนของระบบนิเวศเว็บควบคู่กันไปด้วย
Jules: AI Agent สำหรับนักพัฒนาซอฟต์แวร์
เรื่องต่อมาก็คือ เราจะสำรวจว่า AI Agent สามารถช่วยเหลือนักพัฒนาซอฟต์แวร์ด้วย Jules ได้อย่างไร Jules เป็น Code Agent เวอร์ชันทดลองที่ทำงานด้วยระบบ AI ที่ผสานรวมเข้ากับเวิร์กโฟลว์ GitHub โดยตรง Jules สามารถแก้ไขปัญหา พัฒนาแผน และดำเนินการได้ภายใต้การกำกับดูแลของนักพัฒนาซอฟต์แวร์ ความพยายามนี้เป็นส่วนหนึ่งของเป้าหมายในระยะยาวของเราในการสร้าง AI Agent ที่เป็นประโยชน์ในทุกด้าน รวมถึงการเขียนโค้ด
การใช้ AI Agent ในเกม และอื่นๆ
Google DeepMind มีประวัติอันยาวนานในการใช้เกมเพื่อช่วยให้โมเดล AI สามารถทำตามกฎ การวางแผน และตรรกะได้ดีขึ้น ตัวอย่างเช่น เมื่อสัปดาห์ที่ผ่านมา เราได้เปิดตัว Genie 2 ซึ่งเป็นโมเดล AI ของเราที่สามารถสร้างเกมแบบ 3 มิติได้หลากหลายรูปแบบจากภาพเพียงภาพเดียว เราได้ต่อยอดแนวทางนี้ด้วยการสร้าง AI Agent โดยใช้ Gemini 2.0 ซึ่งสามารถช่วยนำทางคุณในโลกเสมือนจริงของวิดีโอเกมได้ Genie 2 สามารถให้เหตุผลเกี่ยวกับเกมโดยอ้างอิงจากการกระทำบนหน้าจอเพียงอย่างเดียว และเสนอแนะว่าจะต้องทำอะไรต่อไปในการสนทนาแบบเรียลไทม์
เรากำลังร่วมมือกับนักพัฒนาเกมชั้นนำ เช่น Supercell เพื่อสำรวจวิธีการทำงานของ AI Agent เหล่านี้ โดยทดสอบความสามารถในการตีความกฎและความท้าทายในเกมหลากหลายประเภท ตั้งแต่เกมแนววางแผนกลยุทธ์อย่าง “Clash of Clans” ไปจนถึงเกมจำลองการทำฟาร์มอย่าง “Hay Day”
นอกจากจะทำหน้าที่เป็นเพื่อนเล่นเกมเสมือนจริงแล้ว AI Agent เหล่านี้ยังสามารถใช้ Google Search เพื่อเชื่อมต่อคุณกับข้อมูลในการเล่นเกมที่มีอยู่อย่างมากมายบนเว็บได้อีกด้วย
นอกจากการสำรวจความสามารถของ AI Agent ในโลกเสมือนจริงแล้ว เรายังกำลังทดลองใช้ AI Agent ที่สามารถช่วยเหลือผู้ใช้ในโลกแห่งความเป็นจริงได้ด้วยการนำความสามารถในการให้เหตุผลของ Gemini 2.0 มาใช้กับหุ่นยนต์ แม้ว่าจะยังอยู่ในช่วงเริ่มต้น แต่เราก็รู้สึกตื่นเต้นกับศักยภาพของ AI Agent ที่สามารถให้ความช่วยเหลือในสภาพแวดล้อมทางกายภาพได้
ดูข้อมูลเพิ่มเติมเกี่ยวกับต้นแบบการวิจัยและการทดลองต่างๆ ของเราได้ที่ labs.google
การสร้าง AI Agent อย่างมีความรับผิดชอบในยุค Agentic AI
Gemini 2.0 Flash และต้นแบบการวิจัยของเราช่วยให้เราสามารถทดสอบความสามารถใหม่ๆ ของ AI Agent และทำกระบวนการนี้ซ้ำๆ เพื่อทำการปรับปรุงให้ได้ผลลัพธ์ตามที่ต้องการ ซึ่งในที่สุดแล้วจะช่วยให้ผลิตภัณฑ์ของ Google มีประโยชน์มากยิ่งขึ้น
ในขณะที่เราพัฒนาเทคโนโลยีใหม่เหล่านี้ เราก็ตระหนักถึงความรับผิดชอบที่ตามมาและคำถามมากมายเกี่ยวกับ AI Agent ในเรื่องของความปลอดภัย นั่นคือเหตุผลที่เราใช้แนวทางการสำรวจและการพัฒนาแบบค่อยเป็นค่อยไป โดยดำเนินการวิจัยต้นแบบหลายๆ แบบ ดำเนินการฝึกอบรมด้านความปลอดภัยซ้ำๆ ทำงานร่วมกับผู้ทดสอบที่เชื่อถือได้และผู้เชี่ยวชาญภายนอก ดำเนินการประเมินความเสี่ยงและการประกันด้านความปลอดภัยอย่างครอบคลุม
ตัวอย่างเช่น:
- ในกระบวนการด้านความปลอดภัย เราได้ทำงานร่วมกับคณะกรรมการด้านความรับผิดชอบและความปลอดภัย (Responsibility and Safety Committee หรือ RSC) ซึ่งเป็นกลุ่มผู้ตรวจสอบภายในของเรามายาวนาน เพื่อระบุและทำความเข้าใจความเสี่ยงที่อาจเกิดขึ้น
- ความสามารถในการให้เหตุผลของ Gemini 2.0 ช่วยให้เกิดความก้าวหน้าครั้งสำคัญในแนวทางการทำงานของ Red Team ที่นำ AI เข้ามาช่วย ซึ่งรวมถึงความสามารถในการตรวจจับความเสี่ยง ตลอดจนการประเมินและการสร้างข้อมูลฝึกโดยอัตโนมัติเพื่อลดความเสี่ยง ซึ่งหมายความว่าเราสามารถเพิ่มประสิทธิภาพของโมเดลเพื่อความปลอดภัยได้ดียิ่งขึ้น
- เนื่องจากความสามารถในการประมวลผลข้อมูลหลายรูปแบบ (Multimodality) ของ Gemini 2.0 ทำให้ผลลัพธ์ที่เป็นไปได้มีความซับซ้อนมากขึ้น เราจะยังคงประเมินและฝึกโมเดลสำหรับอินพุตและเอาต์พุตของภาพและเสียงเพื่อช่วยปรับปรุงความปลอดภัย
- ในส่วนของ Project Astra เรากำลังสำรวจแนวทางการบรรเทาผลกระทบที่อาจเกิดขึ้นกับผู้ใช้ที่แชร์ข้อมูลที่ละเอียดอ่อนกับ AI Agent โดยไม่ได้ตั้งใจ และเราได้สร้างการควบคุมความเป็นส่วนตัวไว้แล้ว ซึ่งทำให้ผู้ใช้สามารถลบเซสชันต่างๆ ได้อย่างง่ายดาย นอกจากนี้ เรายังดำเนินการค้นคว้าวิธีการต่างๆ เพื่อให้แน่ใจว่า AI Agent ทำหน้าที่เป็นแหล่งข้อมูลที่เชื่อถือได้และไม่ดำเนินการใดๆ ที่ไม่ได้ตั้งใจในนามของผู้ใช้
- สำหรับ Project Mariner เรากำลังดำเนินการเพื่อให้แน่ใจว่าโมเดลเรียนรู้ที่จะจัดลำดับความสำคัญให้คำสั่งของผู้ใช้อยู่เหนือความพยายามของบุคคลที่สามในการแทรกพรอมต์ (Prompt Injection) เพื่อให้สามารถระบุคำสั่งที่อาจเป็นอันตรายจากแหล่งภายนอกและป้องกันการใช้งานในทางที่ผิดได้ การดำเนินการในส่วนนี้ช่วยป้องกันไม่ให้ผู้ใช้ตกเป็นเหยื่อของการฉ้อโกงและฟิชชิงผ่านช่องทางต่างๆ เช่น คำสั่งที่เป็นอันตรายที่ซ่อนอยู่ในอีเมล เอกสาร หรือเว็บไซต์ต่างๆ
เราเชื่อมั่นอย่างยิ่งว่าวิธีเดียวที่จะสร้าง AI ได้คือการมีความรับผิดชอบตั้งแต่เริ่มต้น และเราจะยังคงให้ความสำคัญกับการทำให้ความปลอดภัยและความรับผิดชอบเป็นองค์ประกอบหลักในกระบวนการพัฒนาโมเดล AI และ AI Agent ของเราให้มีประสิทธิภาพมากยิ่งขึ้นต่อไป
Gemini 2.0, AI Agent และอื่นๆ
การเปิดตัวในวันนี้ถือเป็นก้าวใหม่สำหรับโมเดล Gemini ของเรา ซึ่งการเปิดตัว Gemini 2.0 Flash และต้นแบบการวิจัยที่สำรวจความเป็นไปได้ของ AI Agent ถือเป็นอีกหนึ่งความก้าวหน้าครั้งสำคัญของเราในยุค Gemini และเราจะยังคงเดินหน้าสำรวจความเป็นไปได้ใหม่ๆ โดยคำนึงถึงความปลอดภัยควบคู่กันไป เพื่อต่อยอดไปสู่ยุคของ AGI (Artificial General Intelligence)
ไม่มีความคิดเห็น :
แสดงความคิดเห็น