Official Google Thailand Blog: Gemini 2.5: โมเดล AI ชาญฉลาดที่สุดของเราได้รับการพัฒนาให้ดียิ่งขึ้นไปอีกขั้น

Gemini 2.5 Pro ยังคงเป็นที่ชื่นชอบของนักพัฒนาซอฟต์แวร์ในฐานะโมเดลที่ดีที่สุดสำหรับการเขียนโค้ด และ Gemini 2.5 Flash ก็ดีขึ้นกว่าเดิมด้วยการอัปเดตใหม่ นอกจากนี้ เรายังเพิ่มความสามารถใหม่ๆ ให้กับโมเดลของเราด้วย รวมถึง Deep Think ซึ่งเป็นโหมดการให้เหตุผลที่ได้รับการปรับปรุงความสามารถสำหรับ Gemini 2.5 Pro

ในเดือนมีนาคมที่ผ่านมา เราได้ประกาศเปิดตัว Gemini 2.5 Pro ซึ่งเป็นโมเดล AI ที่ชาญฉลาดที่สุดเท่าที่เราเคยมีมา และเมื่อสองสัปดาห์ก่อน เราได้นำการอัปเดตใหม่ๆ วันนี้ เราจะมาแชร์ข้อมูลอัปเดตเพิ่มเติมเกี่ยวกับซีรีส์โมเดล Gemini 2.5 ดังต่อไปนี้

นอกเหนือจากประสิทธิภาพอันน่าทึ่งในเกณฑ์มาตรฐานทางวิชาการแล้ว ตอนนี้ Gemini 2.5 Pro ยังถูกยกเป็นโมเดล AI ชั้นนำระดับโลก โดยขึ้นนำในการจัดอันดับของ WebDev Arena และ LMArena ในเรื่องของการช่วยให้ผู้คนเรียนรู้
เรากำลังเพิ่มความสามารถใหม่ๆ ให้กับ Gemini 2.5 Pro และ 2.5 Flash ได้แก่ เอาต์พุตเสียงแบบเนทีฟสำหรับประสบการณ์การสนทนาที่เป็นธรรมชาติยิ่งขึ้น การรักษาความปลอดภัยขั้นสูง และความสามารถในการใช้คอมพิวเตอร์ของ Project Mariner Gemini 2.5 Pro จะมีประสิทธิภาพที่ดียิ่งขึ้นด้วย Deep Think ในเวอร์ชันทดลอง ซึ่งเป็นโหมดการให้เหตุผลที่ได้รับการปรับปรุงความสามารถสำหรับการคำนวณและการเขียนโค้ดที่ซับซ้อน
เราจะยังคงเดินหน้ายกระดับประสบการณ์ของนักพัฒนาซอฟต์แวร์ด้วยการเปิดตัวการสรุปความคิดใน Gemini API และ Vertex AI เพื่อให้มีความความโปร่งใสมากขึ้น ขยายงบประมาณการคิดให้กับ Gemini 2.5 Pro เพื่อให้ควบคุมต้นทุนได้ดียิ่งขึ้น และเพิ่มการสนับสนุนสำหรับเครื่องมือ MCP ใน Gemini API และ SDK เพื่อเข้าถึงเครื่องมือโอเพนซอร์สเพิ่มเติม
ตอนนี้ Gemini 2.5 Flash พร้อมให้ทุกคนใช้งานได้ในแอป Gemini แล้ว และเราจะเผยแพร่เวอร์ชันอัปเดตให้พร้อมใช้งานใน Google AI Studio สำหรับนักพัฒนาซอฟต์แวร์ และใน Vertex AI สำหรับผู้ใช้ระดับองค์กรในเดือนมิถุนายน และจะตามมาด้วย Gemini 2.5 Pro ในเร็วๆ นี้

ความก้าวหน้าที่น่าทึ่งนี้เป็นผลมาจากความพยายามอย่างไม่หยุดยั้งของทีมต่างๆ ทั่วทั้ง Google ในการปรับปรุงเทคโนโลยีของเราให้ดียิ่งขึ้น ตลอดจนพัฒนาและเปิดตัวเทคโนโลยีเหล่านั้นอย่างปลอดภัยและมีความรับผิดชอบ มาดูรายละเอียดการอัปเดตต่างๆ กันเลย

Gemini 2.5 Pro ทำงานได้ดีขึ้นกว่าที่เคย

เมื่อเร็วๆ นี้ เราได้อัปเดต Gemini 2.5 Pro เพื่อช่วยให้นักพัฒนาสร้างเว็บแอปแบบอินเทอร์แอกทีฟที่มีความสมบูรณ์ยิ่งขึ้น เป็นเรื่องดีที่ได้เห็นปฏิกิริยาเชิงบวกจากผู้ใช้และนักพัฒนาซอฟต์แวร์ และเรายังคงมีการปรับปรุงอย่างต่อเนื่องตามความคิดเห็นของผู้ใช้

นอกเหนือจากประสิทธิภาพที่แข็งแกร่งในเกณฑ์มาตรฐานทางวิชาการแล้ว Gemini 2.5 Pro เวอร์ชันใหม่ยังเป็นผู้นำในลีดเดอร์บอร์ดการเขียนโค้ดยอดนิยมอย่าง WebDev Arena โดยมีคะแนน ELO อยู่ที่ 1,415 คะแนน นอกจากนี้ยังเป็นผู้นำในลีดเดอร์บอร์ดทั้งหมดของ LMArena ซึ่งประเมินความชื่นชอบของผู้ใช้ในมิติต่างๆ และด้วยหน้าต่างบริบทขนาด 1 ล้านโทเค็น Gemini 2.5 Pro จึงมีประสิทธิภาพสุดล้ำในการทำความเข้าใจบริบทที่ยาวและวิดีโอ

ตอนนี้ Gemini 2.5 Pro เป็นโมเดลชั้นนำในด้านการเรียนรู้ นับตั้งแต่ที่ได้ผสานรวม LearnLM ซึ่งเป็นกลุ่มโมเดลสำหรับการเรียนรู้ที่สร้างขึ้นโดยร่วมมือกับผู้เชี่ยวชาญด้านการศึกษา เมื่อเปรียบเทียบกันแบบตัวต่อตัวเพื่อประเมินประสิทธิภาพและหลักการสอน เหล่านักการศึกษาและผู้เชี่ยวชาญต่างก็เลือกใช้ Gemini 2.5 Pro มากกว่าโมเดลอื่นๆ ในสถานการณ์ที่หลากหลาย และยังมีประสิทธิภาพเหนือกว่าโมเดลยอดนิยมในทั้ง 5 หลักการของการเรียนรู้วิทยาศาสตร์ที่ใช้ในการสร้างระบบ AI สำหรับการเรียนรู้

อ่านรายละเอียดเพิ่มเติมได้ในเอกสารประกอบเกี่ยวกับโมเดล Gemini 2.5 Pro ที่อัปเดตแล้ว และที่หน้าเว็บของเทคโนโลยี Gemini

Deep Think

จากการสำรวจขอบเขตความสามารถในการคิดของ Gemini เราได้เริ่มทดสอบโหมดการให้เหตุผลที่มีประสิทธิภาพยิ่งขึ้นที่เรียกว่า Deep Think ซึ่งใช้เทคนิคการวิจัยใหม่ ทำให้โมเดลสามารถพิจารณาสมมติฐานต่างๆ ได้หลายข้อก่อนที่จะให้คำตอบ

2.5 Pro Deep Think ได้รับคะแนนที่น่าประทับใจในการทดสอบ USAMO ประจำปี 2025 ซึ่งปัจจุบันเป็นการทดสอบทางคณิตศาสตร์ที่ยากที่สุด นอกจากนี้ยังได้คะแนนนำใน LiveCodeBench ซึ่งเป็นการทดสอบการเขียนโค้ดระดับการแข่งขันที่ยาก และได้คะแนน 84.0% ใน MMMU ซึ่งเป็นการทดสอบการให้เหตุผลแบบมัลติโมดัล

เนื่องจากเรากำลังกำหนดขอบเขตสำหรับ 2.5 Pro Deep Think เราจึงต้องใช้เวลาเพิ่มเติมในการประเมินความปลอดภัยในขอบเขตที่กว้างขึ้นและรับข้อมูลเพิ่มเติมจากผู้เชี่ยวชาญด้านความปลอดภัยด้วย ในขั้นตอนนี้ เราจะเปิดให้ Deep Think พร้อมใช้งานสำหรับกลุ่มผู้ทดสอบที่เชื่อถือได้ผ่านทาง Gemini API เพื่อรวบรวมความคิดเห็นของผู้ใช้ก่อนที่จะเปิดให้ใช้งานได้ในวงกว้างขึ้น

Gemini 2.5 Flash ที่ดียิ่งขึ้น

Gemini 2.5 Flash เป็นโมเดลหลักที่มีประสิทธิภาพมากที่สุดของเราที่ออกแบบมาให้มีความเร็วและต้นทุนต่ำ ซึ่งตอนนี้ได้รับการปรับปรุงให้ดีขึ้นในเกณฑ์มาตรฐานสำคัญสำหรับการให้เหตุผล ความสามารถในการประมวลผลข้อมูลหลายรูปแบบ (Multimodality) ความสามารถในการเขียนโค้ดและหน้าต่างบริบทที่ยาวขึ้น ในขณะเดียวกันก็มีประสิทธิภาพที่ดียิ่งขึ้น โดยใช้โทเค็นน้อยลง 20-30% ในการประเมินของเรา

Gemini 2.5 Flash เวอร์ชันใหม่พร้อมให้ทดลองใช้แล้วใน Google AI Studio สำหรับนักพัฒนาซอฟต์แวร์ ใน Vertex AI สำหรับผู้ใช้ระดับองค์กร และในแอป Gemini สำหรับทุกคน และจะพร้อมให้ใช้งานจริงโดยทั่วไปในต้นเดือนมิถุนายนนี้

อ่านรายละเอียดเพิ่มเติมได้ในเอกสารประกอบเกี่ยวกับโมเดล Gemini 2.5 Flash ที่อัปเดตแล้ว และในหน้าเว็บของเทคโนโลยี Gemini

ความสามารถใหม่ๆ ของ Gemini 2.5

เอาต์พุตเสียงแบบเนทีฟและการปรับปรุง Live API

วันนี้ Live API จะมีเวอร์ชันตัวอย่างทดลองใช้สำหรับอินพุตเสียงและภาพ และบทสนทนาเอาต์พุตเสียงแบบเนทีฟ เพื่อช่วยให้คุณสร้างประสบการณ์การสนทนากับ Gemini ที่เป็นธรรมชาติมากขึ้นได้โดยตรง

ผู้ใช้สามารถกำหนดโทนเสียง สำเนียง และสไตล์การพูดได้ด้วย ตัวอย่างเช่น คุณสามารถสั่งให้โมเดลใช้เสียงที่ชวนดราม่าเมื่อเล่าเรื่อง นอกจากนี้ยังรองรับการใช้เครื่องมือเพื่อให้สามารถค้นหาแทนคุณได้

ในเบื้องต้น คุณสามารถทดลองใช้ฟีเจอร์เหล่านี้ได้

การสนทนาเชิงอารมณ์ ซึ่งโมเดลจะตรวจจับอารมณ์ในเสียงของผู้ใช้และตอบสนองอย่างเหมาะสม
เสียงเชิงรุก ซึ่งโมเดลจะไม่สนใจการสนทนาเบื้องหลังและรู้ว่าเมื่อใดควรตอบสนอง
การคิดใน Live API ซึ่งโมเดลจะใช้ประโยชน์จากความสามารถในการคิดของ Gemini เพื่อรองรับงานที่ซับซ้อนมากขึ้น

นอกจากนี้เรายังจะเปิดตัวเวอร์ชันตัวอย่างทดลองใช้สำหรับการแปลงข้อความเป็นเสียง (Text-to-Speech) ใน Gemini 2.5 Pro และ 2.5 Flash ซึ่งมาพร้อมการรองรับผู้พูดหลายคนสำหรับ 2 เสียงเป็นครั้งแรก ทำให้สามารถแปลงข้อความเป็นเสียงด้วยเสียงสองเสียงผ่านเอาต์พุตเสียงแบบเนทีฟได้

การแปลงข้อความเป็นเสียงนั้นจะมีความชัดเจนเช่นเดียวกับบทสนทนาเอาต์พุตเสียงแบบเนทีฟ และสามารถจับรายละเอียดเล็กๆ ของเสียงพูดได้ เช่น เสียงกระซิบ โดยสามารถใช้งานได้ในกว่า 24 ภาษา และสามารถสลับไปมาระหว่างภาษาต่างๆ ได้อย่างราบรื่น

ความสามารถในการแปลงข้อความเป็นเสียงนี้พร้อมใช้งานแล้วใน Gemini API

การใช้คอมพิวเตอร์

เราจะนำความสามารถในการใช้คอมพิวเตอร์ของ Project Mariner ไปไว้ใน Gemini API และ Vertex AI ซึ่งบริษัทต่างๆ เช่น Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company และ Cartwheel กำลังสำรวจศักยภาพของความสามารถนี้อยู่ และเราตื่นเต้นที่จะเปิดให้นักพัฒนาซอฟต์แวร์ได้ทดลองใช้ในวงกว้างมากขึ้นในอีกไม่นานนี้

การรักษาความปลอดภัยที่ดียิ่งขึ้น

นอกจากนี้ เรายังเพิ่มการป้องกันภัยคุกคามด้านความปลอดภัย เช่น การแทรกพรอมต์ทางอ้อม ซึ่งเป็นการฝังคำสั่งที่เป็นอันตรายลงในข้อมูลที่โมเดล AI ดึงมาใช้ แนวทางการรักษาความปลอดภัยแบบใหม่ของเราช่วยเพิ่มอัตราการป้องกันภัยคุกคามของ Gemini ต่อการโจมตีด้วยการแทรกพรอมต์ทางอ้อมขณะใช้งานเครื่องมือได้อย่างมีนัยสำคัญ ทำให้ Gemini 2.5 เป็นกลุ่มโมเดลที่ปลอดภัยที่สุดของเราในขณะนี้

อ่านเพิ่มเติมเกี่ยวกับการดำเนินงานของเราในด้านความปลอดภัย ความรับผิดชอบ และการรักษาความปลอดภัย รวมถึงวิธีที่เรายกระดับมาตรการรักษาความปลอดภัยของ Gemini ได้ที่บล็อก Google DeepMind

ประสบการณ์ที่ดียิ่งขึ้นสำหรับนักพัฒนาซอฟต์แวร์

การสรุปความคิด

ตอนนี้ Gemini 2.5 Pro และ Flash จะรวมความสามารถในการสรุปความคิดไว้ใน Gemini API และ Vertex AI การสรุปความคิดจะรวบรวมความคิดของโมเดลโดยสังเขปและจัดระเบียบให้เป็นรูปแบบที่ชัดเจน โดยแบ่งเป็นหัวข้อ รายละเอียดสำคัญ และข้อมูลเกี่ยวกับการดำเนินการของโมเดล เช่น การใช้เครื่องมือต่างๆ

เราหวังว่าการมีรูปแบบกระบวนการคิดของโมเดลที่เป็นโครงสร้างและกระชับมากขึ้น จะช่วยให้นักพัฒนาซอฟต์แวร์และผู้ใช้แก้ไขข้อบกพร่องและเข้าใจสิ่งที่โมเดล Gemini กำลังคิดได้ง่ายขึ้นด้วย

งบประมาณการคิด

เราได้เปิดตัว Gemini Flash 2.5 พร้อมการกำหนดงบประมาณการคิดเพื่อช่วยให้นักพัฒนาซอฟต์แวร์สามารถควบคุมต้นทุนได้ดียิ่งขึ้นโดยปรับความสมดุลระหว่างเวลาในการตอบสนองและคุณภาพ และเราจะขยายความสามารถนี้ไปยัง Gemini 2.5 Pro ซึ่งช่วยให้คุณควบคุมจำนวนโทเค็นที่โมเดลใช้ในการคิดก่อนที่จะตอบคำถามหรือปิดความสามารถในการคิดของโมเดลได้

Gemini 2.5 Pro ที่สามารถกำหนดงบประมาณการคิดจะพร้อมสำหรับการใช้งานจริงที่มีความเสถียรได้ในอีกไม่กี่สัปดาห์ข้างหน้า ควบคู่ไปกับโมเดลที่พร้อมให้ใช้งานทั่วไป

การรองรับ MCP

เราได้เพิ่มการสนับสนุน SDK แบบเนทีฟสำหรับคำจำกัดความ Model Context Protocol (MCP) ใน Gemini API เพื่อให้สามารถผสานรวมกับเครื่องมือโอเพ่นซอร์สได้ง่ายขึ้น นอกจากนี้ เรายังได้สำรวจวิธีการปรับใช้เซิร์ฟเวอร์ MCP และเครื่องมือโฮสต์อื่นๆ เพื่อให้คุณสร้างแอป Agentic AI ได้ง่ายขึ้น

เรายังคงคิดค้นวิธีใหม่ๆ อยู่เสมอเพื่อปรับปรุงโมเดลของเราให้มีประสิทธิภาพและประสิทธิผลมากขึ้น พร้อมทั้งมอบประสบการณ์ที่ดียิ่งขึ้นสำหรับนักพัฒนาซอฟต์แวร์ และเปิดรับความคิดเห็นจากนักพัฒนาซอฟต์แวร์อย่างต่อเนื่อง นอกจากนี้เรายังคงมุ่งมั่นพัฒนางานวิจัยพื้นฐานให้ครอบคลุมและลึกขึ้นเรื่อยๆ เพื่อขยายขอบเขตความสามารถของ Gemini ซึ่งเราจะมีการอัปเดตเพิ่มเติมในเร็วๆ นี้

เรียนรู้เพิ่มเติมเกี่ยวกับ Gemini และความสามารถต่างๆ ได้ในเว็บไซต์ของเรา

Tulsee Doshi

Senior Director, Product Management ในนามของทีม Gemini

Official Google Thailand Blog

วันพุธที่ 21 พฤษภาคม พ.ศ. 2568

Gemini 2.5: โมเดล AI ชาญฉลาดที่สุดของเราได้รับการพัฒนาให้ดียิ่งขึ้นไปอีกขั้น

ไม่มีความคิดเห็น:

แสดงความคิดเห็น