- นอกเหนือจากประสิทธิภาพอันน่าทึ่งในเกณฑ์มาตรฐานทางวิชาการแล้ว ตอนนี้ Gemini 2.5 Pro ยังถูกยกเป็นโมเดล AI ชั้นนำระดับโลก โดยขึ้นนำในการจัดอันดับของ WebDev Arena และ LMArena ในเรื่องของการช่วยให้ผู้คนเรียนรู้
- เรากำลังเพิ่มความสามารถใหม่ๆ ให้กับ Gemini 2.5 Pro และ 2.5 Flash ได้แก่ เอาต์พุตเสียงแบบเนทีฟสำหรับประสบการณ์การสนทนาที่เป็นธรรมชาติยิ่งขึ้น การรักษาความปลอดภัยขั้นสูง และความสามารถในการใช้คอมพิวเตอร์ของ Project Mariner Gemini 2.5 Pro จะมีประสิทธิภาพที่ดียิ่งขึ้นด้วย Deep Think ในเวอร์ชันทดลอง ซึ่งเป็นโหมดการให้เหตุผลที่ได้รับการปรับปรุงความสามารถสำหรับการคำนวณและการเขียนโค้ดที่ซับซ้อน
- เราจะยังคงเดินหน้ายกระดับประสบการณ์ของนักพัฒนาซอฟต์แวร์ด้วยการเปิดตัวการสรุปความคิดใน Gemini API และ Vertex AI เพื่อให้มีความความโปร่งใสมากขึ้น ขยายงบประมาณการคิดให้กับ Gemini 2.5 Pro เพื่อให้ควบคุมต้นทุนได้ดียิ่งขึ้น และเพิ่มการสนับสนุนสำหรับเครื่องมือ MCP ใน Gemini API และ SDK เพื่อเข้าถึงเครื่องมือโอเพนซอร์สเพิ่มเติม
- ตอนนี้ Gemini 2.5 Flash พร้อมให้ทุกคนใช้งานได้ในแอป Gemini แล้ว และเราจะเผยแพร่เวอร์ชันอัปเดตให้พร้อมใช้งานใน Google AI Studio สำหรับนักพัฒนาซอฟต์แวร์ และใน Vertex AI สำหรับผู้ใช้ระดับองค์กรในเดือนมิถุนายน และจะตามมาด้วย Gemini 2.5 Pro ในเร็วๆ นี้
อ่านรายละเอียดเพิ่มเติมได้ในเอกสารประกอบเกี่ยวกับโมเดล Gemini 2.5 Pro ที่อัปเดตแล้ว และที่หน้าเว็บของเทคโนโลยี Gemini
Deep Think
จากการสำรวจขอบเขตความสามารถในการคิดของ Gemini เราได้เริ่มทดสอบโหมดการให้เหตุผลที่มีประสิทธิภาพยิ่งขึ้นที่เรียกว่า Deep Think ซึ่งใช้เทคนิคการวิจัยใหม่ ทำให้โมเดลสามารถพิจารณาสมมติฐานต่างๆ ได้หลายข้อก่อนที่จะให้คำตอบ
2.5 Pro Deep Think ได้รับคะแนนที่น่าประทับใจในการทดสอบ USAMO ประจำปี 2025 ซึ่งปัจจุบันเป็นการทดสอบทางคณิตศาสตร์ที่ยากที่สุด นอกจากนี้ยังได้คะแนนนำใน LiveCodeBench ซึ่งเป็นการทดสอบการเขียนโค้ดระดับการแข่งขันที่ยาก และได้คะแนน 84.0% ใน MMMU ซึ่งเป็นการทดสอบการให้เหตุผลแบบมัลติโมดัล
Gemini 2.5 Flash เวอร์ชันใหม่พร้อมให้ทดลองใช้แล้วใน Google AI Studio สำหรับนักพัฒนาซอฟต์แวร์ ใน Vertex AI สำหรับผู้ใช้ระดับองค์กร และในแอป Gemini สำหรับทุกคน และจะพร้อมให้ใช้งานจริงโดยทั่วไปในต้นเดือนมิถุนายนนี้
อ่านรายละเอียดเพิ่มเติมได้ในเอกสารประกอบเกี่ยวกับโมเดล Gemini 2.5 Flash ที่อัปเดตแล้ว และในหน้าเว็บของเทคโนโลยี Gemini
ความสามารถใหม่ๆ ของ Gemini 2.5
เอาต์พุตเสียงแบบเนทีฟและการปรับปรุง Live API
วันนี้ Live API จะมีเวอร์ชันตัวอย่างทดลองใช้สำหรับอินพุตเสียงและภาพ และบทสนทนาเอาต์พุตเสียงแบบเนทีฟ เพื่อช่วยให้คุณสร้างประสบการณ์การสนทนากับ Gemini ที่เป็นธรรมชาติมากขึ้นได้โดยตรง
ผู้ใช้สามารถกำหนดโทนเสียง สำเนียง และสไตล์การพูดได้ด้วย ตัวอย่างเช่น คุณสามารถสั่งให้โมเดลใช้เสียงที่ชวนดราม่าเมื่อเล่าเรื่อง นอกจากนี้ยังรองรับการใช้เครื่องมือเพื่อให้สามารถค้นหาแทนคุณได้
ในเบื้องต้น คุณสามารถทดลองใช้ฟีเจอร์เหล่านี้ได้
- การสนทนาเชิงอารมณ์ ซึ่งโมเดลจะตรวจจับอารมณ์ในเสียงของผู้ใช้และตอบสนองอย่างเหมาะสม
- เสียงเชิงรุก ซึ่งโมเดลจะไม่สนใจการสนทนาเบื้องหลังและรู้ว่าเมื่อใดควรตอบสนอง
- การคิดใน Live API ซึ่งโมเดลจะใช้ประโยชน์จากความสามารถในการคิดของ Gemini เพื่อรองรับงานที่ซับซ้อนมากขึ้น
การใช้คอมพิวเตอร์
เราจะนำความสามารถในการใช้คอมพิวเตอร์ของ Project Mariner ไปไว้ใน Gemini API และ Vertex AI ซึ่งบริษัทต่างๆ เช่น Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company และ Cartwheel กำลังสำรวจศักยภาพของความสามารถนี้อยู่ และเราตื่นเต้นที่จะเปิดให้นักพัฒนาซอฟต์แวร์ได้ทดลองใช้ในวงกว้างมากขึ้นในอีกไม่นานนี้
การรักษาความปลอดภัยที่ดียิ่งขึ้น
นอกจากนี้ เรายังเพิ่มการป้องกันภัยคุกคามด้านความปลอดภัย เช่น การแทรกพรอมต์ทางอ้อม ซึ่งเป็นการฝังคำสั่งที่เป็นอันตรายลงในข้อมูลที่โมเดล AI ดึงมาใช้ แนวทางการรักษาความปลอดภัยแบบใหม่ของเราช่วยเพิ่มอัตราการป้องกันภัยคุกคามของ Gemini ต่อการโจมตีด้วยการแทรกพรอมต์ทางอ้อมขณะใช้งานเครื่องมือได้อย่างมีนัยสำคัญ ทำให้ Gemini 2.5 เป็นกลุ่มโมเดลที่ปลอดภัยที่สุดของเราในขณะนี้
อ่านเพิ่มเติมเกี่ยวกับการดำเนินงานของเราในด้านความปลอดภัย ความรับผิดชอบ และการรักษาความปลอดภัย รวมถึงวิธีที่เรายกระดับมาตรการรักษาความปลอดภัยของ Gemini ได้ที่บล็อก Google DeepMind
ประสบการณ์ที่ดียิ่งขึ้นสำหรับนักพัฒนาซอฟต์แวร์
การสรุปความคิด
ตอนนี้ Gemini 2.5 Pro และ Flash จะรวมความสามารถในการสรุปความคิดไว้ใน Gemini API และ Vertex AI การสรุปความคิดจะรวบรวมความคิดของโมเดลโดยสังเขปและจัดระเบียบให้เป็นรูปแบบที่ชัดเจน โดยแบ่งเป็นหัวข้อ รายละเอียดสำคัญ และข้อมูลเกี่ยวกับการดำเนินการของโมเดล เช่น การใช้เครื่องมือต่างๆ
เราหวังว่าการมีรูปแบบกระบวนการคิดของโมเดลที่เป็นโครงสร้างและกระชับมากขึ้น จะช่วยให้นักพัฒนาซอฟต์แวร์และผู้ใช้แก้ไขข้อบกพร่องและเข้าใจสิ่งที่โมเดล Gemini กำลังคิดได้ง่ายขึ้นด้วย
งบประมาณการคิด
เราได้เปิดตัว Gemini Flash 2.5 พร้อมการกำหนดงบประมาณการคิดเพื่อช่วยให้นักพัฒนาซอฟต์แวร์สามารถควบคุมต้นทุนได้ดียิ่งขึ้นโดยปรับความสมดุลระหว่างเวลาในการตอบสนองและคุณภาพ และเราจะขยายความสามารถนี้ไปยัง Gemini 2.5 Pro ซึ่งช่วยให้คุณควบคุมจำนวนโทเค็นที่โมเดลใช้ในการคิดก่อนที่จะตอบคำถามหรือปิดความสามารถในการคิดของโมเดลได้
Gemini 2.5 Pro ที่สามารถกำหนดงบประมาณการคิดจะพร้อมสำหรับการใช้งานจริงที่มีความเสถียรได้ในอีกไม่กี่สัปดาห์ข้างหน้า ควบคู่ไปกับโมเดลที่พร้อมให้ใช้งานทั่วไป
การรองรับ MCP
เราได้เพิ่มการสนับสนุน SDK แบบเนทีฟสำหรับคำจำกัดความ Model Context Protocol (MCP) ใน Gemini API เพื่อให้สามารถผสานรวมกับเครื่องมือโอเพ่นซอร์สได้ง่ายขึ้น นอกจากนี้ เรายังได้สำรวจวิธีการปรับใช้เซิร์ฟเวอร์ MCP และเครื่องมือโฮสต์อื่นๆ เพื่อให้คุณสร้างแอป Agentic AI ได้ง่ายขึ้น
เรายังคงคิดค้นวิธีใหม่ๆ อยู่เสมอเพื่อปรับปรุงโมเดลของเราให้มีประสิทธิภาพและประสิทธิผลมากขึ้น พร้อมทั้งมอบประสบการณ์ที่ดียิ่งขึ้นสำหรับนักพัฒนาซอฟต์แวร์ และเปิดรับความคิดเห็นจากนักพัฒนาซอฟต์แวร์อย่างต่อเนื่อง นอกจากนี้เรายังคงมุ่งมั่นพัฒนางานวิจัยพื้นฐานให้ครอบคลุมและลึกขึ้นเรื่อยๆ เพื่อขยายขอบเขตความสามารถของ Gemini ซึ่งเราจะมีการอัปเดตเพิ่มเติมในเร็วๆ นี้
เรียนรู้เพิ่มเติมเกี่ยวกับ Gemini และความสามารถต่างๆ ได้ในเว็บไซต์ของเรา
Tulsee Doshi
Senior Director, Product Management ในนามของทีม Gemini
ไม่มีความคิดเห็น:
แสดงความคิดเห็น