วันพุธที่ 21 พฤษภาคม พ.ศ. 2568

Gemini 2.5: โมเดล AI ชาญฉลาดที่สุดของเราได้รับการพัฒนาให้ดียิ่งขึ้นไปอีกขั้น

Gemini 2.5 Pro ยังคงเป็นที่ชื่นชอบของนักพัฒนาซอฟต์แวร์ในฐานะโมเดลที่ดีที่สุดสำหรับการเขียนโค้ด และ Gemini 2.5 Flash ก็ดีขึ้นกว่าเดิมด้วยการอัปเดตใหม่ นอกจากนี้ เรายังเพิ่มความสามารถใหม่ๆ ให้กับโมเดลของเราด้วย รวมถึง Deep Think ซึ่งเป็นโหมดการให้เหตุผลที่ได้รับการปรับปรุงความสามารถสำหรับ Gemini 2.5 Pro


ในเดือนมีนาคมที่ผ่านมา เราได้ประกาศเปิดตัว Gemini 2.5 Pro ซึ่งเป็นโมเดล AI ที่ชาญฉลาดที่สุดเท่าที่เราเคยมีมา และเมื่อสองสัปดาห์ก่อน เราได้นำการอัปเดตใหม่ๆ วันนี้ เราจะมาแชร์ข้อมูลอัปเดตเพิ่มเติมเกี่ยวกับซีรีส์โมเดล Gemini 2.5 ดังต่อไปนี้

  • นอกเหนือจากประสิทธิภาพอันน่าทึ่งในเกณฑ์มาตรฐานทางวิชาการแล้ว ตอนนี้ Gemini 2.5 Pro ยังถูกยกเป็นโมเดล AI ชั้นนำระดับโลก โดยขึ้นนำในการจัดอันดับของ WebDev Arena และ LMArena ในเรื่องของการช่วยให้ผู้คนเรียนรู้
  • เรากำลังเพิ่มความสามารถใหม่ๆ ให้กับ Gemini 2.5 Pro และ 2.5 Flash ได้แก่ เอาต์พุตเสียงแบบเนทีฟสำหรับประสบการณ์การสนทนาที่เป็นธรรมชาติยิ่งขึ้น การรักษาความปลอดภัยขั้นสูง และความสามารถในการใช้คอมพิวเตอร์ของ Project Mariner Gemini 2.5 Pro จะมีประสิทธิภาพที่ดียิ่งขึ้นด้วย Deep Think ในเวอร์ชันทดลอง ซึ่งเป็นโหมดการให้เหตุผลที่ได้รับการปรับปรุงความสามารถสำหรับการคำนวณและการเขียนโค้ดที่ซับซ้อน
  • เราจะยังคงเดินหน้ายกระดับประสบการณ์ของนักพัฒนาซอฟต์แวร์ด้วยการเปิดตัวการสรุปความคิดใน Gemini API และ Vertex AI เพื่อให้มีความความโปร่งใสมากขึ้น ขยายงบประมาณการคิดให้กับ Gemini 2.5 Pro เพื่อให้ควบคุมต้นทุนได้ดียิ่งขึ้น และเพิ่มการสนับสนุนสำหรับเครื่องมือ MCP ใน Gemini API และ SDK เพื่อเข้าถึงเครื่องมือโอเพนซอร์สเพิ่มเติม
  • ตอนนี้ Gemini 2.5 Flash พร้อมให้ทุกคนใช้งานได้ในแอป Gemini แล้ว และเราจะเผยแพร่เวอร์ชันอัปเดตให้พร้อมใช้งานใน Google AI Studio สำหรับนักพัฒนาซอฟต์แวร์ และใน Vertex AI สำหรับผู้ใช้ระดับองค์กรในเดือนมิถุนายน และจะตามมาด้วย Gemini 2.5 Pro ในเร็วๆ นี้
ความก้าวหน้าที่น่าทึ่งนี้เป็นผลมาจากความพยายามอย่างไม่หยุดยั้งของทีมต่างๆ ทั่วทั้ง Google ในการปรับปรุงเทคโนโลยีของเราให้ดียิ่งขึ้น ตลอดจนพัฒนาและเปิดตัวเทคโนโลยีเหล่านั้นอย่างปลอดภัยและมีความรับผิดชอบ มาดูรายละเอียดการอัปเดตต่างๆ กันเลย

Gemini 2.5 Pro ทำงานได้ดีขึ้นกว่าที่เคย

เมื่อเร็วๆ นี้ เราได้อัปเดต Gemini 2.5 Pro เพื่อช่วยให้นักพัฒนาสร้างเว็บแอปแบบอินเทอร์แอกทีฟที่มีความสมบูรณ์ยิ่งขึ้น เป็นเรื่องดีที่ได้เห็นปฏิกิริยาเชิงบวกจากผู้ใช้และนักพัฒนาซอฟต์แวร์ และเรายังคงมีการปรับปรุงอย่างต่อเนื่องตามความคิดเห็นของผู้ใช้

นอกเหนือจากประสิทธิภาพที่แข็งแกร่งในเกณฑ์มาตรฐานทางวิชาการแล้ว Gemini 2.5 Pro เวอร์ชันใหม่ยังเป็นผู้นำในลีดเดอร์บอร์ดการเขียนโค้ดยอดนิยมอย่าง WebDev Arena โดยมีคะแนน ELO อยู่ที่ 1,415 คะแนน นอกจากนี้ยังเป็นผู้นำในลีดเดอร์บอร์ดทั้งหมดของ LMArena ซึ่งประเมินความชื่นชอบของผู้ใช้ในมิติต่างๆ และด้วยหน้าต่างบริบทขนาด 1 ล้านโทเค็น Gemini 2.5 Pro จึงมีประสิทธิภาพสุดล้ำในการทำความเข้าใจบริบทที่ยาวและวิดีโอ

ตอนนี้ Gemini 2.5 Pro เป็นโมเดลชั้นนำในด้านการเรียนรู้ นับตั้งแต่ที่ได้ผสานรวม LearnLM ซึ่งเป็นกลุ่มโมเดลสำหรับการเรียนรู้ที่สร้างขึ้นโดยร่วมมือกับผู้เชี่ยวชาญด้านการศึกษา เมื่อเปรียบเทียบกันแบบตัวต่อตัวเพื่อประเมินประสิทธิภาพและหลักการสอน เหล่านักการศึกษาและผู้เชี่ยวชาญต่างก็เลือกใช้ Gemini 2.5 Pro มากกว่าโมเดลอื่นๆ ในสถานการณ์ที่หลากหลาย และยังมีประสิทธิภาพเหนือกว่าโมเดลยอดนิยมในทั้ง 5 หลักการของการเรียนรู้วิทยาศาสตร์ที่ใช้ในการสร้างระบบ AI สำหรับการเรียนรู้

อ่านรายละเอียดเพิ่มเติมได้ในเอกสารประกอบเกี่ยวกับโมเดล Gemini 2.5 Pro ที่อัปเดตแล้ว และที่หน้าเว็บของเทคโนโลยี Gemini 


Deep Think


จากการสำรวจขอบเขตความสามารถในการคิดของ Gemini เราได้เริ่มทดสอบโหมดการให้เหตุผลที่มีประสิทธิภาพยิ่งขึ้นที่เรียกว่า Deep Think ซึ่งใช้เทคนิคการวิจัยใหม่ ทำให้โมเดลสามารถพิจารณาสมมติฐานต่างๆ ได้หลายข้อก่อนที่จะให้คำตอบ


2.5  Pro Deep Think ได้รับคะแนนที่น่าประทับใจในการทดสอบ USAMO ประจำปี 2025 ซึ่งปัจจุบันเป็นการทดสอบทางคณิตศาสตร์ที่ยากที่สุด นอกจากนี้ยังได้คะแนนนำใน LiveCodeBench ซึ่งเป็นการทดสอบการเขียนโค้ดระดับการแข่งขันที่ยาก และได้คะแนน 84.0% ใน MMMU ซึ่งเป็นการทดสอบการให้เหตุผลแบบมัลติโมดัล



เนื่องจากเรากำลังกำหนดขอบเขตสำหรับ 2.5 Pro Deep Think เราจึงต้องใช้เวลาเพิ่มเติมในการประเมินความปลอดภัยในขอบเขตที่กว้างขึ้นและรับข้อมูลเพิ่มเติมจากผู้เชี่ยวชาญด้านความปลอดภัยด้วย ในขั้นตอนนี้ เราจะเปิดให้ Deep Think พร้อมใช้งานสำหรับกลุ่มผู้ทดสอบที่เชื่อถือได้ผ่านทาง Gemini API เพื่อรวบรวมความคิดเห็นของผู้ใช้ก่อนที่จะเปิดให้ใช้งานได้ในวงกว้างขึ้น

Gemini 2.5 Flash ที่ดียิ่งขึ้น

Gemini 2.5 Flash เป็นโมเดลหลักที่มีประสิทธิภาพมากที่สุดของเราที่ออกแบบมาให้มีความเร็วและต้นทุนต่ำ ซึ่งตอนนี้ได้รับการปรับปรุงให้ดีขึ้นในเกณฑ์มาตรฐานสำคัญสำหรับการให้เหตุผล ความสามารถในการประมวลผลข้อมูลหลายรูปแบบ (Multimodality) ความสามารถในการเขียนโค้ดและหน้าต่างบริบทที่ยาวขึ้น ในขณะเดียวกันก็มีประสิทธิภาพที่ดียิ่งขึ้น โดยใช้โทเค็นน้อยลง 20-30% ในการประเมินของเรา


Gemini 2.5 Flash เวอร์ชันใหม่พร้อมให้ทดลองใช้แล้วใน Google AI Studio สำหรับนักพัฒนาซอฟต์แวร์ ใน Vertex AI สำหรับผู้ใช้ระดับองค์กร และในแอป Gemini สำหรับทุกคน และจะพร้อมให้ใช้งานจริงโดยทั่วไปในต้นเดือนมิถุนายนนี้


อ่านรายละเอียดเพิ่มเติมได้ในเอกสารประกอบเกี่ยวกับโมเดล Gemini 2.5 Flash ที่อัปเดตแล้ว และในหน้าเว็บของเทคโนโลยี Gemini


ความสามารถใหม่ๆ ของ Gemini 2.5


เอาต์พุตเสียงแบบเนทีฟและการปรับปรุง Live API


วันนี้ Live API จะมีเวอร์ชันตัวอย่างทดลองใช้สำหรับอินพุตเสียงและภาพ และบทสนทนาเอาต์พุตเสียงแบบเนทีฟ เพื่อช่วยให้คุณสร้างประสบการณ์การสนทนากับ Gemini ที่เป็นธรรมชาติมากขึ้นได้โดยตรง


ผู้ใช้สามารถกำหนดโทนเสียง สำเนียง และสไตล์การพูดได้ด้วย ตัวอย่างเช่น คุณสามารถสั่งให้โมเดลใช้เสียงที่ชวนดราม่าเมื่อเล่าเรื่อง นอกจากนี้ยังรองรับการใช้เครื่องมือเพื่อให้สามารถค้นหาแทนคุณได้


ในเบื้องต้น คุณสามารถทดลองใช้ฟีเจอร์เหล่านี้ได้

  • การสนทนาเชิงอารมณ์ ซึ่งโมเดลจะตรวจจับอารมณ์ในเสียงของผู้ใช้และตอบสนองอย่างเหมาะสม
  • เสียงเชิงรุก ซึ่งโมเดลจะไม่สนใจการสนทนาเบื้องหลังและรู้ว่าเมื่อใดควรตอบสนอง
  • การคิดใน Live API ซึ่งโมเดลจะใช้ประโยชน์จากความสามารถในการคิดของ Gemini เพื่อรองรับงานที่ซับซ้อนมากขึ้น
นอกจากนี้เรายังจะเปิดตัวเวอร์ชันตัวอย่างทดลองใช้สำหรับการแปลงข้อความเป็นเสียง (Text-to-Speech) ใน Gemini 2.5 Pro และ 2.5 Flash ซึ่งมาพร้อมการรองรับผู้พูดหลายคนสำหรับ 2 เสียงเป็นครั้งแรก ทำให้สามารถแปลงข้อความเป็นเสียงด้วยเสียงสองเสียงผ่านเอาต์พุตเสียงแบบเนทีฟได้

การแปลงข้อความเป็นเสียงนั้นจะมีความชัดเจนเช่นเดียวกับบทสนทนาเอาต์พุตเสียงแบบเนทีฟ และสามารถจับรายละเอียดเล็กๆ ของเสียงพูดได้ เช่น เสียงกระซิบ โดยสามารถใช้งานได้ในกว่า 24 ภาษา และสามารถสลับไปมาระหว่างภาษาต่างๆ ได้อย่างราบรื่น


ความสามารถในการแปลงข้อความเป็นเสียงนี้พร้อมใช้งานแล้วใน Gemini API

การใช้คอมพิวเตอร์ 


เราจะนำความสามารถในการใช้คอมพิวเตอร์ของ Project Mariner ไปไว้ใน Gemini API และ Vertex AI ซึ่งบริษัทต่างๆ เช่น Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company และ Cartwheel กำลังสำรวจศักยภาพของความสามารถนี้อยู่ และเราตื่นเต้นที่จะเปิดให้นักพัฒนาซอฟต์แวร์ได้ทดลองใช้ในวงกว้างมากขึ้นในอีกไม่นานนี้


การรักษาความปลอดภัยที่ดียิ่งขึ้น


นอกจากนี้ เรายังเพิ่มการป้องกันภัยคุกคามด้านความปลอดภัย เช่น การแทรกพรอมต์ทางอ้อม ซึ่งเป็นการฝังคำสั่งที่เป็นอันตรายลงในข้อมูลที่โมเดล AI ดึงมาใช้ แนวทางการรักษาความปลอดภัยแบบใหม่ของเราช่วยเพิ่มอัตราการป้องกันภัยคุกคามของ Gemini ต่อการโจมตีด้วยการแทรกพรอมต์ทางอ้อมขณะใช้งานเครื่องมือได้อย่างมีนัยสำคัญ ทำให้ Gemini 2.5 เป็นกลุ่มโมเดลที่ปลอดภัยที่สุดของเราในขณะนี้


อ่านเพิ่มเติมเกี่ยวกับการดำเนินงานของเราในด้านความปลอดภัย ความรับผิดชอบ และการรักษาความปลอดภัย รวมถึงวิธีที่เรายกระดับมาตรการรักษาความปลอดภัยของ Gemini ได้ที่บล็อก Google DeepMind


ประสบการณ์ที่ดียิ่งขึ้นสำหรับนักพัฒนาซอฟต์แวร์


การสรุปความคิด


ตอนนี้ Gemini 2.5 Pro และ Flash จะรวมความสามารถในการสรุปความคิดไว้ใน Gemini API และ Vertex AI การสรุปความคิดจะรวบรวมความคิดของโมเดลโดยสังเขปและจัดระเบียบให้เป็นรูปแบบที่ชัดเจน โดยแบ่งเป็นหัวข้อ รายละเอียดสำคัญ และข้อมูลเกี่ยวกับการดำเนินการของโมเดล เช่น การใช้เครื่องมือต่างๆ


เราหวังว่าการมีรูปแบบกระบวนการคิดของโมเดลที่เป็นโครงสร้างและกระชับมากขึ้น จะช่วยให้นักพัฒนาซอฟต์แวร์และผู้ใช้แก้ไขข้อบกพร่องและเข้าใจสิ่งที่โมเดล Gemini กำลังคิดได้ง่ายขึ้นด้วย


งบประมาณการคิด


เราได้เปิดตัว Gemini Flash 2.5 พร้อมการกำหนดงบประมาณการคิดเพื่อช่วยให้นักพัฒนาซอฟต์แวร์สามารถควบคุมต้นทุนได้ดียิ่งขึ้นโดยปรับความสมดุลระหว่างเวลาในการตอบสนองและคุณภาพ และเราจะขยายความสามารถนี้ไปยัง Gemini 2.5 Pro ซึ่งช่วยให้คุณควบคุมจำนวนโทเค็นที่โมเดลใช้ในการคิดก่อนที่จะตอบคำถามหรือปิดความสามารถในการคิดของโมเดลได้


Gemini 2.5 Pro ที่สามารถกำหนดงบประมาณการคิดจะพร้อมสำหรับการใช้งานจริงที่มีความเสถียรได้ในอีกไม่กี่สัปดาห์ข้างหน้า ควบคู่ไปกับโมเดลที่พร้อมให้ใช้งานทั่วไป


การรองรับ MCP


เราได้เพิ่มการสนับสนุน SDK แบบเนทีฟสำหรับคำจำกัดความ Model Context Protocol (MCP) ใน Gemini API เพื่อให้สามารถผสานรวมกับเครื่องมือโอเพ่นซอร์สได้ง่ายขึ้น นอกจากนี้ เรายังได้สำรวจวิธีการปรับใช้เซิร์ฟเวอร์ MCP และเครื่องมือโฮสต์อื่นๆ เพื่อให้คุณสร้างแอป Agentic AI ได้ง่ายขึ้น


เรายังคงคิดค้นวิธีใหม่ๆ อยู่เสมอเพื่อปรับปรุงโมเดลของเราให้มีประสิทธิภาพและประสิทธิผลมากขึ้น พร้อมทั้งมอบประสบการณ์ที่ดียิ่งขึ้นสำหรับนักพัฒนาซอฟต์แวร์ และเปิดรับความคิดเห็นจากนักพัฒนาซอฟต์แวร์อย่างต่อเนื่อง นอกจากนี้เรายังคงมุ่งมั่นพัฒนางานวิจัยพื้นฐานให้ครอบคลุมและลึกขึ้นเรื่อยๆ เพื่อขยายขอบเขตความสามารถของ Gemini ซึ่งเราจะมีการอัปเดตเพิ่มเติมในเร็วๆ นี้


เรียนรู้เพิ่มเติมเกี่ยวกับ Gemini และความสามารถต่างๆ ได้ในเว็บไซต์ของเรา


Tulsee Doshi

Senior Director, Product Management ในนามของทีม Gemini

ไม่มีความคิดเห็น:

แสดงความคิดเห็น