อัลกอริธึมการติดตามด้วยมือแบบเรียลไทม์ของ Google ใช้สมาร์ทโฟนเพื่อปรับปรุงการรู้จำภาษามือ

ภาษามือถูกใช้โดยผู้คนนับล้านทั่วโลก นักวิจัยกำลังทำงานเพื่อสร้างเทคโนโลยีที่สามารถเข้าใจท่าทางและแปลงเป็นภาษาที่มนุษย์เข้าใจได้โดยอัตโนมัติ อย่างไรก็ตาม โครงการดังกล่าวไม่ประสบความสำเร็จอย่างมากในแง่ของความถูกต้อง

เมื่อเร็ว ๆ นี้ Google ได้พัฒนาอัลกอริทึมที่สามารถใช้สำหรับการติดตามมือแบบเรียลไทม์ ระบบอัจฉริยะใช้ประโยชน์จากแมชชีนเลิร์นนิงเพื่อสร้างแผนที่ของมือ แผนที่ถูกสร้างขึ้นด้วยความช่วยเหลือของกล้องหรือสมาร์ทโฟน เราไม่สามารถปฏิเสธความจริงที่ว่าระบบส่วนใหญ่ไม่สามารถจับการเคลื่อนไหวของมืออย่างรวดเร็วได้อย่างแม่นยำ Google ได้กล่าวถึงปัญหานี้โดยเฉพาะในการวิจัยนี้ ที่น่าสนใจคือพวกเขาจำกัดจำนวนข้อมูลที่ประมวลผลโดยอัลกอริธึมก่อนหน้านี้

การติดตามมือแบบเรียลไทม์ทำงานอย่างไร

โครงการที่มีอยู่ส่วนใหญ่แปลภาษามือโดยการตรวจจับขนาดและตำแหน่งของมือที่สมบูรณ์ ด้วยงานวิจัยชิ้นนี้ นักวิจัยได้ขจัดความจำเป็นในการจัดการกับรูปทรงสี่เหลี่ยมในขนาดต่างๆ ระบบของ Google จะจดจำฝ่ามือที่มีรูปร่างเป็นสี่เหลี่ยมจัตุรัส ประการที่สองกระบวนการวิเคราะห์แยกต่างหากจะทำสำหรับนิ้วมือ

นักวิจัยใช้ภาพมือประมาณ 30,000 ภาพเพื่อฝึกอัลกอริทึมการเรียนรู้ของเครื่อง ภาพเหล่านี้ถ่ายในสภาพแสงและท่าทางที่แตกต่างกัน จากนั้นระบบจะตรวจจับท่าทางโดยการเปรียบเทียบระหว่างท่าของมือกับรายการของสิ่งที่เป็นที่รู้จัก เช่น ลูกบอลหรือความสุข Google อธิบายการรู้จำท่าทางในโพสต์บล็อก

อัลกอริธึมการติดตามด้วยมือขั้นสุดท้ายให้ผลลัพธ์ที่ทันสมัยในแง่ของความเร็วและความแม่นยำ อัลกอริทึมนี้ใช้เฟรมเวิร์ก MediaPipe เพื่อเรียกใช้ เทคนิคนี้ดูเหมือนเป็นความก้าวหน้าครั้งสำคัญในโดเมนภาษามือ แม้ว่าจะยังมีช่องว่างให้ปรับปรุงอีกมาก เพื่อให้เข้าใจภาษามือมากขึ้น ทุกคนสามารถขยายงานนี้เพื่อใช้การแสดงออกทางสีหน้าและมือทั้งสองข้างเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น

แม้ว่าจะไม่มีคำพูดใดๆ จาก Google แต่ก็มีความเป็นไปได้ที่ Google สามารถปรับปรุงเทคโนโลยีการติดตามด้วยมือแบบเรียลไทม์นี้เพื่อใช้ในผลิตภัณฑ์ของตนได้ ในขณะเดียวกัน หากคุณต้องการลองใช้โค้ดนี้ ก็สามารถเผยแพร่สู่สาธารณะบน GitHub ได้