Official Google Thailand Blog: Google I/O 2024: I/O สำหรับยุคใหม่

หมายเหตุบรรณาธิการ: เนื้อหาด้านล่างนี้เป็นคำกล่าวของซุนดาร์ พิชัย ในงาน Google I/O 2024 โดยมีการปรับเนื้อหาบางส่วนเพื่อให้ครอบคลุมการประกาศเรื่องต่างๆ ภายในงาน ดูประกาศทั้งหมดได้ในคอลเล็กชันนี้

Google เข้าสู่ยุคแห่ง Gemini อย่างเต็มตัวแล้ว

ก่อนที่เราจะพูดถึงเรื่องนี้ ผมอยากทบทวนช่วงเวลาที่เราอยู่กันในปัจจุบันนี้ก่อน เราได้ลงทุนใน AI มานานกว่าทศวรรษแล้ว และได้สร้างสรรค์นวัตกรรมใหม่ๆ ในทุกๆ ด้าน ไม่ว่าจะเป็นการวิจัย ผลิตภัณฑ์ หรือโครงสร้างพื้นฐาน ซึ่งเราจะพูดถึงทั้งหมดนี้ในวันนี้

เรายังคงอยู่ในช่วงเริ่มต้นของการเปลี่ยนแปลงไปสู่ยุค AI และเราก็ยังมองเห็นโอกาสดีๆ มากมายรออยู่ข้างหน้า ทั้งสำหรับครีเอเตอร์ นักพัฒนาซอฟต์แวร์ สตาร์ทอัพ และทุกๆ คน ซึ่งการช่วยขับเคลื่อนโอกาสเหล่านั้นคือสิ่งสำคัญในยุคแห่ง Gemini เรามาเข้าเรื่องนี้กันเลยครับ

ยุคแห่ง Gemini

ในงาน Google I/O ปีที่ผ่านมา เราได้ประกาศแผนการพัฒนา Gemini เป็นครั้งแรก โดย Gemini ถูกออกแบบมาให้เป็นโมเดลที่ทำงานได้กับข้อมูลหลายประเภทแบบเนทีฟมาตั้งแต่ต้น ซึ่งสามารถให้เหตุผลเกี่ยวกับข้อมูลประเภทต่างๆ ทั้งข้อความ รูปภาพ วิดีโอ โค้ด และอื่นๆ อีกมากมาย ถือเป็นก้าวสำคัญในการเปลี่ยนอินพุตให้เป็นเอาต์พุต และนี่คือ “I/O” (Input/Output) สำหรับยุคใหม่

นับตั้งแต่นั้นเป็นต้นมา เราได้เปิดตัวโมเดล Gemini รุ่นแรกๆ ที่มีความสามารถมากที่สุดของเรา โดยมีประสิทธิภาพที่เหนือชั้นในทุกด้านจากการทดสอบด้วยเกณฑ์มาตรฐานการทำงานกับข้อมูลหลายประเภท และ 2 เดือนต่อมา เราได้เปิดตัว Gemini 1.5 Pro ซึ่งมาพร้อมกับความก้าวหน้าครั้งใหญ่ โดยสามารถรองรับการประมวลผลข้อมูลได้มากยิ่งขึ้น Gemini 1.5 Pro สามารถรองรับการประมวลผลข้อมูลจำนวนมากอย่างต่อเนื่องได้ถึง 1 ล้านโทเค็น ซึ่งมากกว่าโมเดลพื้นฐานขนาดใหญ่อื่นๆ ที่มีอยู่ในตอนนี้

เราต้องการให้ทุกคนได้รับประโยชน์จากความสามารถของ Gemini ดังนั้นเราจึงพัฒนา Gemini อย่างรวดเร็วและไม่หยุดยั้งเพื่อนำเสนอความก้าวหน้าเหล่านี้กับทุกคน ปัจจุบัน นักพัฒนาซอฟต์แวร์กว่า 1.5 ล้านคนใช้โมเดล Gemini ในเครื่องมือต่างๆ ของเรา เพื่อแก้ไขข้อบกพร่องของโค้ด รับข้อมูลเชิงลึกใหม่ๆ และสร้างแอปพลิเคชัน AI รุ่นใหม่ๆ

นอกจากนี้เรายังได้นำความสามารถอันล้ำสมัยของ Gemini มาช่วยเพิ่มประสิทธิภาพของผลิตภัณฑ์ต่างๆ ของเราด้วย ซึ่งในวันนี้เราจะแสดงตัวอย่างให้ทุกคนได้เห็นกัน ทั้งใน Google Search, Google Photos, Google Workspace, Android และอื่นๆ

ความคืบหน้าด้านผลิตภัณฑ์

ปัจจุบัน ทุกผลิตภัณฑ์ของเราที่มีผู้ใช้กว่า 2 พันล้านคนล้วนใช้ Gemini

นอกจากนี้เรายังนำเสนอประสบการณ์ใหม่ๆ รวมถึงประสบการณ์บนอุปกรณ์เคลื่อนที่ที่ผู้คนสามารถโต้ตอบกับ Gemini ได้โดยตรงผ่านแอป ซึ่งขณะนี้มีให้บริการบน Android และ iOS และผ่านทาง Gemini Advanced ที่ให้การเข้าถึงโมเดลที่มีความสามารถมากที่สุดของเรา ในช่วงเวลาเวลาเพียง 3 เดือน มีผู้ลงทะเบียนเพื่อทดลองใช้งาน Gemini Advanced กว่า 1 ล้านคน และยังคงเพิ่มขึ้นเรื่อยๆ

การขยายบริการข้อมูลภาพรวมโดย AI (AI overview) ใน Google Search

การนำพลังของ Gemini มาใช้ใน Google Search นับเป็นการเปลี่ยนแปลงที่น่าตื่นเต้นที่สุดอย่างหนึ่ง

ในปีที่ผ่านมา เราได้ตอบคำถามนับพันล้านข้อผ่านทาง Search Generative Experience (SGE) ผู้คนใช้ SGE เพื่อค้นหาข้อมูลที่ต้องการด้วยวิธีใหม่ๆ ถามคำถามใหม่ๆ ที่ยาวขึ้นและซับซ้อนกว่าเดิม หรือแม้กระทั่งค้นหาข้อมูลด้วยรูปภาพ และรับประสบการณ์การใช้งานหน้าเว็บไซต์ที่ดีที่สุด

เราได้ทำการทดสอบประสบการณ์นี้นอก Labs ซึ่งไม่เพียงแต่ทำให้การใช้ Google Search เพิ่มขึ้นเท่านั้น แต่ความพึงพอใจของผู้ใช้ก็เพิ่มขึ้นด้วยเช่นกัน

ผมตื่นเต้นที่จะประกาศให้ทุกคนทราบว่า เราจะเริ่มให้บริการข้อมูลภาพรวมโดย AI (AI overview) ซึ่งเป็นประสบการณ์ที่ได้รับการปรับปรุงใหม่ทั้งหมด ให้กับทุกคนในสหรัฐอเมริกาในสัปดาห์นี้ และจะขยายบริการให้ครอบคลุมประเทศอื่นๆ เพิ่มเติมในเร็วๆ นี้

เราได้ยกระดับ Google Search ด้วยนวัตกรรมต่างๆ มากมาย และด้วย Gemini ทำให้เราสามารถสร้างประสบการณ์การค้นหาที่ทรงพลังยิ่งขึ้นได้ ซึ่งรวมถึงการค้นหาภายในผลิตภัณฑ์ของเราด้วย

ขอแนะนำ Ask Photos

เป็นเวลาเกือบ 9 ปีแล้วที่เราเปิดตัว Google Photos นับตั้งแต่นั้นมา ผู้คนก็ได้ใช้ Google Photos เพื่อจัดระเบียบรูปภาพที่เต็มไปด้วยความทรงจำดีๆ และช่วงเวลาที่สำคัญๆ ของพวกเขา ปัจจุบัน ผู้คนอัปโหลดรูปภาพและวิดีโอมากกว่า 6 พันล้านรายการลงใน Google Photos ในแต่ละวัน

นอกจากนี้ ผู้คนยังชอบใช้ Google Photos เพื่อค้นหาสิ่งต่างๆ ด้วย ซึ่ง Gemini ทำให้เรื่องนี้ง่ายขึ้นกว่าเดิมมาก

สมมติว่าคุณกำลังจะจ่ายค่าที่จอดรถ แต่จำหมายเลขทะเบียนรถของตัวเองไม่ได้ คุณก็สามารถามจาก Google Photos ได้เลย โดยระบบจะจำรถที่เห็นบ่อยๆ จากนั้นจะวิเคราะห์ว่าคันไหนเป็นของคุณ และบอกหมายเลขทะเบียนรถให้คุณทราบ ซึ่งถ้าเป็นก่อนหน้านี้ คุณจะต้องค้นหารูปภาพโดยใช้คีย์เวิร์ด จากนั้นก็เลื่อนดูภาพถ่ายย้อนไปหลายปีเพื่อหาหมายเลขทะเบียนรถที่ต้องการ

Ask Photos สามารถช่วยคุณค้นหาความทรงจำในอดีตได้ดียิ่งขึ้น ตัวอย่างเช่น คุณอาจจะนึกถึงเหตุการณ์สำคัญเมื่อตอนที่ Lucia ลูกสาวของคุณยังเป็นเด็กอยู่ ตอนนี้ คุณสามารถถาม Google Photos ได้แล้วว่า “Lucia หัดว่ายน้ำตั้งแต่เมื่อไหร่”

และคุณอาจถามต่อด้วยคำถามที่ซับซ้อนกว่าเดิม เช่น “การว่ายน้ำของ Lucia พัฒนาไปอย่างไรแล้วบ้าง”

คำถามนี้ทำให้ Gemini ทำมากกว่าการค้นหาแบบธรรมดาทั่วไป โดยจะจดจำบริบทต่างๆ ตั้งแต่การฝึกว่ายน้ำในสระ การดำน้ำตื้นในทะเล ไปจนถึงข้อความและวันที่ที่อยู่ในประกาศนียบัตรผ่านหลักสูตรการว่ายน้ำของ Lucia จากนั้น Google Photos จะสรุปข้อมูลทุกอย่างให้ ซึ่งจะช่วยให้คุณสามารถจดจำรายละเอียดทั้งหมดที่ผ่านมา และหวนนึกถึงความทรงจำอันน่าประทับใจเหล่านั้นอีกครั้ง เราจะเปิดตัว Ask Photos พร้อมด้วยความสามารถใหม่ๆ ในซัมเมอร์นี้

การปลดล็อกความรู้ใหม่ๆ ด้วยความสามารถในการเข้าใจข้อมูลหลายประเภทและการประมวลผลข้อมูลได้มากขึ้น

การปลดล็อกความรู้ในรูปแบบต่างๆ คือเหตุผลที่เราสร้าง Gemini ให้มีความสามารถในการเข้าใจและทำงานกับข้อมูลหลายประเภทมาตั้งแต่เริ่มต้น ถือเป็นโมเดลที่มีความสามารถหลากหลายในตัว ซึ่งนอกจากจะทำความเข้าใจอินพุตประเภทต่างๆ แล้ว ยังค้นหาความเชื่อมโยงระหว่างอินพุตเหล่านั้นด้วย

ความสามารถในการเข้าใจและทำงานกับข้อมูลหลายประเภทช่วยขยายขอบเขตของคำถามที่เราสามารถถามได้และคำตอบที่เราจะได้รับ ความสามารถในการประมวลผลข้อมูลจำนวนมากขึ้นทำให้เราสามารถรับข้อมูลได้มากกว่าเดิม ซึ่งอาจจะเป็นข้อความที่ยาวหลายร้อยหน้า ไฟล์เสียงที่ยาวหลายชั่วโมง วิดีโอความยาว 1 ชั่วโมง โค้ดที่จัดเก็บไว้ทั้งหมด หรือเมนูชีสเค้กประมาณ 90 กว่าเมนูของ Cheesecake Factory

สำหรับข้อมูลจำนวนมากขนาดนั้น คุณจะต้องมีหน้าต่างบริบทที่สามารถรองรับการประมวลผลข้อมูลได้มากถึง 1 ล้านโทเค็น ซึ่งตอนนี้สามารถทำได้แล้วด้วย Gemini 1.5 Pro ซึ่งนักพัฒนาซอฟต์แวร์ได้นำไปใช้ในรูปแบบต่างๆ ที่น่าสนใจมาก

เราเปิดให้บริการ Gemini 1.5 Pro ในเวอร์ชัน Preview ที่มาพร้อมกับความสามารถในการประมวลผลข้อมูลได้มากขึ้น มาได้ 2-3 เดือนแล้ว เราได้ทำการปรับปรุงประสิทธิภาพหลายหลายรายการ ทั้งในเรื่องของการแปล การเขียนโค้ด และการให้เหตุผล ซึ่งคุณจะเริ่มเห็นการอัปเดตเหล่านี้ตั้งแต่วันนี้เป็นต้นไป

ตอนนี้ผมตื่นเต้นที่จะประกาศให้ทราบว่า เรากำลังจะนำ Gemini 1.5 Pro เวอร์ชันที่ได้รับการปรับปรุงนี้มาให้บริการแก่นักพัฒนาซอฟต์แวร์ทั่วโลก และตอนนี้ Gemini 1.5 Pro ที่สามารถรองรับการประมวลผลข้อมูลได้มากถึง 1 ล้านโทเค็น พร้อมให้บริการใน Gemini Advanced แล้ว โดยครอบคลุมทั้งหมด 35 ภาษา

การขยายความสามารถในการประมวลผลข้อมูลเพิ่มขึ้นเป็น 2 ล้านโทเค็นในเวอร์ชัน Private Preview

ความสามารถในการรองรับการประมวลผลข้อมูลมากถึง 1 ล้านโทเค็นกำลังเปิดโอกาสใหม่ๆ มากมาย ซึ่งเป็นเรื่องที่น่าตื่นเต้น แต่ผมคิดว่าเราสามารถยกระดับความสามารถนี้ขึ้นไปได้อีก

ด้วยเหตุนี้ ในวันนี้เราจะขยายความสามารถของหน้าต่างบริบทให้รองรับการประมวลผลข้อมูลได้มากถึง 2 ล้านโทเค็น และจะเปิดให้บริการแก่นักพัฒนาซอฟต์แวร์ในเวอร์ชัน Private Preview

ความก้าวหน้าที่เกิดขึ้นในช่วง 2-3 เดือนที่ผ่านมานี้เป็นเรื่องที่น่าทึ่งมาก และนี่ถือเป็นก้าวต่อไปของเราในการไปสู่เป้าหมายสูงสุด นั่นก็คือ ความสามารถในการรองรับการประมวลผลข้อมูลแบบไม่จำกัด

การนำ Gemini 1.5 Pro มาให้บริการใน Google Workspace

เราได้พูดถึงความก้าวหน้าทางเทคโนโลยีไป 2 เรื่องแล้ว นั่นก็คือ ความสามารถในการเข้าใจข้อมูลหลายประเภทและความสามารถในการรองรับการประมวลผลข้อมูลได้มากขึ้น ซึ่งเมื่อผสานรวมทั้งสองอย่างนี้เข้าด้วยกันจะช่วยปลดล็อกความชาญฉลาดและความสามารถที่ทรงพลังยิ่งขึ้น

และสิ่งนี้เกิดขึ้นจริงแล้วกับ Google Workplace

ผู้คนค้นหาอีเมลใน Gmail กันเป็นประจำ และเรากำลังทำให้การค้นหาอีเมลมีประสิทธิภาพมากขึ้นด้วย Gemini ตัวอย่างเช่น คุณอยากรู้เกี่ยวกับทุกอย่างที่เกิดขึ้นที่โรงเรียนของลูก Gemini ช่วยอัปเดตให้คุณได้

ตอนนี้คุณสามารถขอให้ Gemini ช่วยสรุปอีเมลล่าสุดทั้งหมดจากโรงเรียนของลูกได้ โดย Gemini จะระบุอีเมลที่เกี่ยวข้องกับคุณ รวมถึงวิเคราะห์ไฟล์ต่างๆ ที่แนบมา เช่น ไฟล์ PDF จากนั้นคุณจะได้รับข้อมูลสรุปประเด็นสำคัญและรายการที่ต้องทำ หากคุณจำเป็นต้องเดินทางและไม่สามารถเข้าร่วมประชุมผู้ปกครองได้ คุณก็สามารถขอให้ Gemini ช่วยสรุปไฮไลต์จากบันทึกวิดีโอการประชุมผ่าน Google Meet ความยาว 1 ชั่วโมงให้คุณได้ หรือหากชมรมผู้ปกครองกำลังมองหาอาสาสมัครและคุณก็ว่างอยู่พอดี คุณก็สามารถบอกให้ Gemini ช่วยร่างคำตอบให้ได้

ยังมีตัวอย่างอื่นๆ อีกมากมายที่แสดงให้เห็นว่า Gemini ช่วยให้ชีวิตคุณง่ายขึ้นได้อย่างไรบ้าง Gemini 1.5 Pro พร้อมให้บริการใน Workspace Labs แล้ววันนี้ อ่านรายละเอียดเพิ่มเติมได้จากบล็อกของ Aparna

เอาต์พุตเสียงใน NotebookLM

ผมได้ยกตัวอย่างของเอาต์พุตข้อความไปแล้ว ตอนนี้เมื่อเรามีโมเดลที่ทำงานได้กับข้อมูลหลายประเภทแล้ว เราก็สามารถทำอะไรได้อีกมากมายเลยครับ

เรากำลังสร้างความก้าวหน้าใหม่ๆ ซึ่งรวมถึงความก้าวหน้าของเอาต์พุตเสียงใน NotebookLM ที่นำ Gemini 1.5 Pro มาช่วยสร้างเสียงสนทนาแบบอินเทอร์แอคทีฟที่คุณสามารถปรับแต่งเองได้จากข้อมูลที่อยู่ในเอกสารต่างๆ ของคุณ

นี่คือโอกาสจากความสามารถในการทำงานกับข้อมูลหลายประเภท ในเร็วๆ นี้ คุณจะสามารถผสมผสานและจับคู่อินพุตได้ นี่คือสิ่งที่เราหมายถึง I/O สำหรับยุคใหม่ แต่จะเป็นอย่างไร ถ้าเราไปได้ไกลกว่านี้

การต่อยอดด้วย AI Agent

เรามองเห็นโอกาสในการต่อยอดความก้าวหน้าขึ้นไปอีกขั้นด้วย AI Agent ซึ่งผมมองว่า AI Agent เป็นระบบอัจฉริยะที่มีความสามารถในการให้เหตุผล การวางแผน และการจดจำ นอกจากนี้ยังสามารถ “คิด” เผื่อไปอีกหลายขั้น และยังสามารถทำงานข้ามซอฟต์แวร์และระบบต่างๆ ได้ด้วย AI Agent จะช่วยทำสิ่งต่างๆ แทนคุณได้ และที่สำคัญที่สุดคือ ทุกอย่างจะอยู่ภายใต้การดูแลของคุณ

ถึงแม้ว่าเราจะยังอยู่ในช่วงเริ่มต้น แต่ก็มีตัวอย่างการใช้งานในด้านต่างๆ แล้ว ซึ่งเรากำลังทำงานอย่างหนักเพื่อพัฒนาประสิทธิภาพให้ดียิ่งขึ้น

เริ่มที่การซื้อของก่อน การซื้อรองเท้าเป็นเรื่องที่ค่อนข้างสนุก แต่จะไม่ค่อยสนุกถ้าซื้อมาแล้วใส่ไม่ได้และต้องคืนสินค้า

ลองจินตนาการว่า Gemini สามารถทำทุกอย่างให้คุณได้

ค้นกล่องจดหมายของคุณเพื่อหาใบเสร็จ…

ค้นหาหมายเลขคำสั่งซื้อจากอีเมลของคุณ…

กรอกแบบฟอร์มการคืนสินค้า…

หรือแม้กระทั่งกำหนดเวลาที่ UPS จะมารับของ

ง่ายขึ้นเยอะเลยใช่ไหมครับ

ตัวอย่างต่อไปจะซับซ้อนขึ้นมาอีกหน่อยครับ

สมมติว่าคุณเพิ่งย้ายไปชิคาโก แล้วลองจินตนาการว่า Gemini และ Chrome ทำงานร่วมกันเพื่อช่วยคุณทำสิ่งต่างๆ ไม่ว่าจะเป็นการจัดระเบียบ การให้เหตุผล หรือการรวบรวมข้อมูลต่างๆ

ตัวอย่างเช่น การสำรวจเมืองและหาบริการต่างๆ ที่อยู่ในละแวกใกล้เคียง อาทิ บริการซักรีด บริการพาสุนัขเดินเล่น หรือการอัปเดตรายละเอียดเกี่ยวกับที่อยู่ใหม่ของคุณบนเว็บไซต์ต่างๆ

Gemini สามารถทำสิ่งเหล่านี้ได้ และจะแจ้งให้คุณทราบข้อมูลเพิ่มเติมเมื่อจำเป็น โดยคุณสามารถควบคุมสิ่งต่างๆ ได้ตลอดเวลา

การให้คุณเป็นผู้ควบคุมประสบการณ์การใช้งานของตนเองนั้นเป็นสิ่งที่สำคัญมาก ในขณะที่เรากำลังสร้างต้นแบบประสบการณ์เหล่านี้อยู่นั้น เราก็กำลังขบคิดอย่างหนักว่าจะทำอย่างไรให้ประสบการณ์นั้นเป็นส่วนตัว ปลอดภัย และตอบโจทย์ความต้องการของทุกคน

นี่เป็นตัวอย่างการใช้งานง่ายๆ ที่จะทำให้คุณเข้าใจถึงปัญหาที่เราต้องการแก้ไข เราต้องการสร้างระบบอัจฉริยะที่สามารถคิดล่วงหน้า ให้เหตุผล และวางแผนแทนคุณได้

Gemini มีความหมายต่อพันธกิจของเราอย่างไร

พลังของ Gemini ที่มาพร้อมกับความสามารถในการทำงานกับข้อมูลหลายประเภท ความสามารถในการรองรับการประมวลผลข้อมูลได้มากขึ้น และ AI Agent ทำให้เราเข้าใกล้เป้าหมายสูงสุดของเรามากขึ้น นั่นก็คือ การทำให้ AI มีประโยชน์สำหรับทุกคน

นี่คือวิธีที่เราจะสร้างความก้าวหน้าในพันธกิจของเรา นั่นก็คือ การจัดระเบียบข้อมูลของโลกในทุกอินพุต ทำให้สามารถเข้าถึงได้ผ่านเอาต์พุตทุกรูปแบบ และการผสานรวมข้อมูลของโลกเข้ากับข้อมูลใน “โลกของคุณ” เพื่อให้เป็นประโยชน์อย่างแท้จริงสำหรับคุณ

การริเริ่มสร้างสรรค์สิ่งใหม่ๆ

เพื่อปลดล็อกศักยภาพสูงสุดของ AI เราจะต้องริเริ่มสร้างสรรค์สิ่งใหม่ๆ ซึ่งทีมงาน Google DeepMind ก็ได้ทำงานอย่างหนักในเรื่องนี้

เราได้เห็นเรื่องที่น่าตื่นเต้นมากมายเกี่ยวกับ Gemini 1.5 Pro และหน้าต่างบริบทที่สามารถรองรับการประมวลผลข้อมูลได้มากขึ้น แต่ในขณะเดียวกันเราก็ทราบว่านักพัฒนาซอฟต์แวร์อยากได้โมเดลที่ทำงานได้เร็วและคุ้มค่ากว่านี้ ด้วยเหตุนี้ ในวันพรุ่งนี้เราจะเปิดตัว Gemini 1.5 Flash ซึ่งเป็นโมเดลที่มีขนาดเล็กแต่สามารถรองรับข้อมูลจำนวนมากได้ โดยได้รับการปรับให้เหมาะสมสำหรับงานที่ต้องการความหน่วงต่ำและคำนึงถึงเรื่องต้นทุนมากที่สุด Gemini 1.5 Flash จะพร้อมใช้งานใน AI Studio และ Vertex AI ในวันอังคารนี้

เราต้องการสร้าง AI Agent ที่มีความสามารถรอบด้านเพื่อให้เป็นประโยชน์ในชีวิตประจำวัน ตอนนี้เรากำลังพัฒนา Project Astra ที่สามารถทำความเข้าใจข้อมูลหลายรูปแบบและสนทนาได้แบบเรียลไทม์

นอกจากนี้เรายังมีความก้าวหน้าในด้านการสร้างวิดีโอและรูปภาพด้วย Veo และ Imagen 3 และได้เปิดตัว Gemma 2.0 ซึ่งเป็นโมเดลแบบโอเพนซอร์สรุ่นใหม่ที่เราสร้างขึ้นเพื่อส่งเสริมการพัฒนานวัตกรรม AI อย่างมีความรับผิดชอบ อ่านรายละเอียดเพิ่มเติมได้จากบล็อกของ Demis Hassabis

โครงสร้างพื้นฐานสำหรับยุค AI: ขอแนะนำ Trillium

การฝึกโมเดลที่ล้ำสมัยต้องใช้พลังในการประมวลผลจำนวนมาก ความต้องการของอุตสาหกรรมในด้านการประมวลผลด้วยแมชชีนเลิร์นนิงเพิ่มขึ้นถึง 1 ล้านเท่าในช่วง 6 ปีที่ผ่านมา และเพิ่มขึ้นเป็น 10 เท่าในแต่ละปี

Google เกิดมาเพื่อรองรับความต้องการนี้ ตลอดระยะเวลา 25 ปีที่ผ่านมา เราได้ลงทุนในโครงสร้างพื้นฐานทางเทคนิคที่ได้มาตรฐานระดับโลก ตั้งแต่ฮาร์ดแวร์อันล้ำสมัยที่ช่วยเพิ่มประสิทธิภาพให้กับ Google Search ไปจนถึง Tensor Processing Unit (TPU) ที่ออกแบบมาเพื่อขับเคลื่อนความก้าวหน้าด้าน AI

Gemini ได้รับการฝึกและทำงานบน TPU รุ่นที่ 4 และ 5 ของเรา บริษัท AI ชั้นนำอื่นๆ ซึ่งรวมถึง Anthropic ก็ได้ฝึกโมเดลของพวกเขาบน TPU ด้วยเช่นกัน

วันนี้เรารู้สึกตื่นเต้นที่จะประกาศเปิดตัว TPU รุ่นที่ 6 ของเราที่เรียกว่า Trillium ซึ่งถือได้ว่าเป็น TPU ที่มีประสิทธิภาพมากที่สุดของเราในขณะนี้ โดย Trillium ช่วยเพิ่มประสิทธิภาพการประมวลผลต่อชิปถึง 4.7 เท่า เมื่อเทียบกับ TPU v5e รุ่นก่อนหน้า

Trillium จะพร้อมให้บริการสำหรับลูกค้า Google Cloud ในช่วงปลายปี 2024

นอกจาก TPU ของเราแล้ว เรายังภูมิใจนำเสนอ CPU และ GPU เพื่อรองรับปริมาณงานทุกประเภท ซึ่งรวมถึง Axion ซึ่งเป็นชิปประมวลผลรุ่นใหม่ที่เราประกาศเปิดตัวไปเมื่อเดือนที่ผ่านมา Axion เป็นชิป CPU สถาปัตยกรรม Arm แบบกำหนดเองตัวแรกของเราที่ออกแบบมาเพื่อมอบประสิทธิภาพที่ดีที่สุดและช่วยประหยัดพลังงาน

นอกจากนี้เรายังภูมิใจที่ได้เป็นหนึ่งในผู้ให้บริการคลาวด์รายแรกที่นำเสนอ Blackwell GPU ที่ล้ำสมัยของ NVIDIA ซึ่งจะวางจำหน่ายในต้นปี 2025 เราโชคดีที่มีความสัมพันธ์อันยาวนานกับ NVIDIA และรู้สึกตื่นเต้นที่จะนำความสามารถที่ก้าวล้ำของ Blackwell มาให้บริการแก่ลูกค้าของเรา

ชิปเป็นองค์ประกอบพื้นฐานของระบบบูรณาการแบบครบวงจรของเรา ตั้งแต่ฮาร์ดแวร์ที่มีการเพิ่มประสิทธิภาพและซอฟต์แวร์แบบโอเพนซอร์ส ไปจนถึงโมเดลการใช้งานที่ยืดหยุ่น ซึ่งทั้งหมดนี้รวมอยู่ในไฮเปอร์คอมพิวเตอร์ AI ของเรา ซึ่งเป็นสถาปัตยกรรมซูเปอร์คอมพิวเตอร์สุดล้ำ

ธุรกิจและนักพัฒนาซอฟต์แวร์ต่างใช้ไฮเปอร์คอมพิวเตอร์ AI ของเราเพื่อรับมือกับความท้าทายที่มีความซับซ้อนมากขึ้น โดยมีประสิทธิภาพมากกว่าสองเท่าเมื่อเทียบกับการซื้อฮาร์ดแวร์และชิปแบบปกติทั่วไป ความก้าวหน้าของไฮเปอร์คอมพิวเตอร์ AI ของเราส่วนหนึ่งมาจากแนวทางการระบายความร้อนด้วยของเหลวในศูนย์ข้อมูลของเรา

เราทำสิ่งนี้มาเกือบทศวรรษแล้ว ซึ่งทำมาก่อนที่มันจะกลายเป็นสิ่งล้ำสมัยของอุตสาหกรรมนานแล้ว และปัจจุบัน พลังงานทั้งหมดที่ใช้สำหรับระบบระบายความร้อนด้วยของเหลวของเราสูงเกือบ 1 กิกะวัตต์ และยังคงเพิ่มขึ้นเรื่อยๆ ซึ่งคิดเป็นเกือบ 70 เท่าของพลังงานที่ใช้ในระบบอื่นๆ

สิ่งสำคัญที่สุดคือขนาดที่แท้จริงของเครือข่ายของเรา ซึ่งเชื่อมโยงโครงสร้างพื้นฐานของเราทั่วโลก เครือข่ายของเราครอบคลุมสายเคเบิลบนภาคพื้นดินและใต้ทะเลความยาวรวมกว่า 2 ล้านไมล์ ซึ่งมากกว่า 10 เท่า (!) ของผู้ให้บริการคลาวด์ชั้นนำรายอื่นๆ

เราจะเดินหน้าลงทุนในด้านต่างๆ ที่จำเป็นเพื่อยกระดับนวัตกรรม AI และมอบความสามารถอันล้ำสมัยต่อไป

ความก้าวหน้าครั้งใหญ่ของ Google Search

สิ่งหนึ่งที่เรามีการลงทุนและพัฒนานวัตกรรมใหม่ๆ อย่างต่อเนื่องคือ Google Search ซึ่งเป็นผลิตภัณฑ์หลักของเรา เมื่อ 25 ปีที่แล้ว เราสร้าง Google Search ขึ้นมาเพื่อช่วยให้ผู้คนเข้าถึงข้อมูลบนโลกออนไลน์

เมื่อเกิดการเปลี่ยนแปลงของแพลตฟอร์มในแต่ละครั้ง เราได้นำเสนอความก้าวหน้าใหม่ๆ ที่ช่วยตอบโจทย์ของคุณได้ดียิ่งขึ้น ในยุคของอุปกรณ์เคลื่อนที่ เราได้ปลดล็อกคำถามและคำตอบประเภทใหม่ๆ โดยใช้บริบทที่ดีขึ้น การรับรู้ถึงตำแหน่ง และข้อมูลแบบเรียลไทม์ ความก้าวหน้าในเรื่องความเข้าใจภาษาธรรมชาติและคอมพิวเตอร์วิทัศน์ ทำให้เรามีวิธีใหม่ๆ ในการค้นหา ไม่ว่าจะเป็นการค้นหาด้วยเสียง การฮัมเพื่อค้นหาเพลงที่ชอบ หรือการค้นหาด้วยรูปภาพของดอกไม้ที่คุณเห็นข้างทาง ตอนนี้คุณสามารถใช้ฟีเจอร์วงเพื่อค้นหาด้วย Search (Circle to Search) เพื่อหารองเท้าคู่ใหม่ ซื้อเลย! ถ้าไม่ถูกใจก็คืนได้

และแน่นอนว่า Google Search ในยุคแห่ง Gemini จะยกระดับประสบการณ์การค้นหาขึ้นไปอีกขั้นด้วยการผสานรวมความแข็งแกร่งด้านโครงสร้างพื้นฐาน ความสามารถด้าน AI ล่าสุด ข้อมูลที่มีคุณภาพสูง และประสบการณ์อันยาวนานของเราในการเชื่อมต่อผู้คนเข้ากับข้อมูลที่มีอยู่อย่างมากมายมหาศาลบนโลกออนไลน์ ผลลัพธ์ที่ได้ก็คือ ผลิตภัณฑ์ที่สามารถตอบโจทย์ความต้องการของคุณได้อย่างแท้จริง

Google Search เป็น Generative AI ที่มีความสงสัยใคร่รู้ในระดับเดียวกับมนุษย์ และนี่คือความก้าวหน้าครั้งใหญ่ของ Google Srearch เท่าที่เคยมีมา อ่านรายละเอียดเพิ่มเติมเกี่ยวกับ Google Search ในยุคแห่ง Gemini ได้จากบล็อกของ Liz Reid

ประสบการณ์การใช้งาน Gemini ที่ชาญฉลาดยิ่งขึ้น

Gemini เป็นมากกว่าแชทบ็อต โดยถูกออกแบบมาให้เป็นผู้ช่วยส่วนตัวที่มีประโยชน์ที่จะช่วยคุณทำงานที่มีความซับซ้อนและทำสิ่งต่างๆ แทนคุณ

การสนทนาโต้ตอบกับ Gemini ควรให้ความรู้สึกที่เป็นธรรมชาติ ดังนั้น เราจึงเปิดตัว “Live” ประสบการณ์การใช้งาน Gemini แบบใหม่ที่คุณสามารถใช้เสียงของคุณเองเพื่อสนทนาเชิงลึกกับ Gemini นอกจากนี้เรายังจะนำความสามารถในการรองรับการประมวลผลข้อมูลจำนวน 2 ล้านโทเค็นมาให้บริการใน Gemini Advanced ในช่วงปลายปีนี้ด้วย ซึ่งจะช่วยให้คุณสามารถอัปโหลดและวิเคราะห์ไฟล์ที่มีขนาดใหญ่อย่างเช่นวิดีโอและโค้ดยาวๆ ได้ อ่านรายละเอียดเพิ่มเติมได้จากบล็อกของ Sissie Hsiao

Gemini สำหรับ Android

เราตื่นเต้นที่จะผสานรวม Gemini เพื่อยกระดับประสบการณ์ของผู้ใช้ระบบปฏิบัติการ Android หลายพันล้านคนทั่วโลก Gemini จะทำหน้าที่เป็นผู้ช่วย AI คนใหม่ของคุณที่พร้อมให้การช่วยเหลือคุณทุกที่ทุกเวลา เราได้นำโมเดล Gemini ผสานรวมเข้ากับ Android ซึ่งรวมถึง Gemini Nano ซึ่งเป็นโมเดลที่ออกแบบมาสำหรับการทำงานในอุปกรณ์ ที่สามารถประมวลผลข้อมูลได้หลากหลายรูปแบบ ทั้งข้อความ รูปภาพ เสียง และเสียงพูด ซึ่งจะช่วยปลดล็อกประสบการณ์ใหม่ๆ ไปพร้อมๆ กับการรักษาความเป็นส่วนตัวให้กับข้อมูลบนอุปกรณ์ของคุณ ดูอัปเดตเกี่ยวกับ Android จากบล็อกของ Sameer Samat ได้ที่นี่

แนวทางการพัฒนา AI อย่างมีความรับผิดชอบของเรา

เรายังคงเดินหน้าคว้าโอกาสจาก AI อย่างกล้าหาญ และรู้สึกตื่นเต้นกับสิ่งใหม่ๆ ที่รออยู่ข้างหน้า นอกจากนี้ เรายังมุ่งมั่นพัฒนา AI อย่างมีความรับผิดชอบ เรากำลังพัฒนาเทคนิคล้ำสมัยที่เรียกว่า Red Teaming เพื่อพัฒนาโมเดลของเราให้ดียิ่งขึ้น โดยนำ AI เข้ามาช่วย นี่เป็นการต่อยอดจาก AlphaGo ซึ่งถือเป็นความก้าวหน้าครั้งใหญ่ของ Google DeepMind ไม่เพียงเท่านี้ เรายังได้ขยาย SynthID ซึ่งเป็นเครื่องมือสำหรับใส่ลายน้ำของเราที่ทำให้การระบุเนื้อหาที่ AI สร้างขึ้นง่ายกว่าเดิม ให้ครอบคลุมข้อความและวิดีโอด้วย อ่านรายละเอียดเพิ่มเติมได้จากบล็อกของ James Manyika

การสร้างสรรค์อนาคตร่วมกัน

สิ่งต่างๆ ทั้งหมดที่นำเสนอมานี้แสดงให้เห็นถึงความก้าวหน้าของเราในการพัฒนา AI อย่างกล้าหาญและมีความรับผิดชอบ เพื่อให้ AI มีประโยชน์สำหรับทุกคน

เราเป็นบริษัทที่เน้นการขับเคลื่อน AI มานานแล้ว การเป็นผู้นำด้านการวิจัยของเราตลอดหลายทศวรรษที่ผ่านมาทำให้เกิดนวัตกรรมใหม่ๆ มากมายที่ช่วยต่อยอดความก้าวหน้าในด้าน AI ทั้งสำหรับเราและอุตสาหกรรมเทคโนโลยี ยิ่งไปกว่านั้น เรายังได้สร้างและพัฒนาด้านต่างๆ ดังนี้

โครงสร้างพื้นฐานชั้นนำระดับโลกที่สร้างขึ้นสำหรับยุคแห่ง AI
นวัตกรรมอันล้ำสมัยใน Google Search ที่ขับเคลื่อนด้วย Gemini
ผลิตภัณฑ์ที่มีประโยชน์กับผู้คนทั่วโลก ซึ่งตอนนี้มี 15 ผลิตภัณฑ์ที่มีผู้ใช้มากถึง 500 ล้านคน
และแพลตฟอร์มที่เปิดโอกาสให้ทุกคน ซึ่งรวมถึงผู้ใช้ พาร์ทเนอร์ ลูกค้า และครีเอเตอร์ ร่วมสร้างสรรค์อนาคตไปด้วยกัน

ความก้าวหน้านี้เกิดขึ้นได้ก็เพราะชุมชนนักพัฒนาซอฟต์แวร์ที่น่าทึ่งของเรา พวกคุณทำให้มันเกิดขึ้นได้จริงจากประสบการณ์ที่หล่อหลอมและแอปพลิเคชันที่สร้างขึ้นในแต่ละวัน หากทุกคนร่วมมือกัน ทุกอย่างก็สามารถเกิดขึ้นจริงได้

ซุนดาร์ พิชัย

CEO ของ Alphabet และ Google

Official Google Thailand Blog

วันพุธที่ 15 พฤษภาคม พ.ศ. 2567

Google I/O 2024: I/O สำหรับยุคใหม่

ไม่มีความคิดเห็น:

แสดงความคิดเห็น