จบข่าวคู่แข่ง! Alibaba ส่ง AI ถอดเสียงเทพทรู มาเขย่าโลก!

หน้าแรกTeeNee รอบรู้ มือถือ แท๊บเลต เอไอ จบข่าวคู่แข่ง! Alibaba ส่ง AI ถอดเสียงเทพทรู มาเขย่าโลก!

เทพทรูตัวใหม่จาก Alibaba ที่จะมาเขย่าวงการ AI ถอดเสียง!

จากที่เคยมีข่าวมาพักใหญ่ ตอนนี้ค่ายยักษ์ใหญ่จากจีนอย่าง Alibaba ก็ได้ฤกษ์เปิดตัว Qwen3-ASR-Flash โมเดล AI ตัวใหม่ที่พร้อมจะมาพลิกโฉมวงการการถอดเสียง หรือ AI transcription ให้ไม่เหมือนเดิมอีกต่อไป ขอบอกเลยว่านี่ไม่ใช่แค่โมเดลธรรมดา ๆ แต่คือตัวเต็งที่จะเข้ามาตีตลาด และอาจจะถึงขั้นทำให้คู่แข่งรายอื่น ๆ ต้องกลับไปทำการบ้านกันใหม่เลยทีเดียว

Qwen3-ASR-Flash ถูกพัฒนาขึ้นจากเทคโนโลยีสุดเจ๋งอย่าง Qwen3-Omni intelligence และที่สำคัญคือมันถูกเทรนด้วยข้อมูลเสียงมหาศาลกว่าหลายสิบล้านชั่วโมง! ทำให้มันมีความสามารถที่เหนือชั้น ไม่ว่าจะเจอกับสภาพแวดล้อมที่มีเสียงรบกวน หรือภาษาที่ซับซ้อนแค่ไหนก็เอาอยู่

ผลทดสอบที่ทำเอาคู่แข่งมึน
ช่วงเดือนสิงหาคม 2025 ที่ผ่านมา มีการทดสอบความสามารถของเจ้า Qwen3-ASR-Flash อย่างเป็นทางการ และผลที่ออกมาก็ทำเอาหลายคนถึงกับอึ้ง!

ภาษาจีนมาตรฐาน: Qwen3-ASR-Flash ทำอัตราความผิดพลาดได้แค่ 3.97% เท่านั้น! ในขณะที่คู่แข่งอย่าง Gemini-2.5-Pro ทำได้ถึง 8.98% และ GPT4o-Transcribe ก็ไปไกลถึง 15.72% เรียกว่าทิ้งห่างกันแบบไม่เห็นฝุ่น

ภาษาจีนสำเนียงต่าง ๆ: ตัวนี้ก็ยังคงทำคะแนนได้ดี โดยมีอัตราความผิดพลาดเพียง 3.48%

ภาษาอังกฤษ: ถึงแม้จะเน้นภาษาจีน แต่ภาษาอังกฤษก็ไม่น้อยหน้า ทำคะแนนได้ 3.81% ซึ่งก็ยังดีกว่า Gemini (7.63%) และ GPT4o (8.45%) เยอะมาก

แต่ทีเด็ดที่ทำให้เจ้าตัวนี้เป็นที่พูดถึงมากที่สุดคือความสามารถในการถอดเสียงเพลง!

การถอดเสียงเนื้อเพลง (Lyrics): ในการทดสอบแบบเปิด Qwen3-ASR-Flash ทำอัตราความผิดพลาดได้แค่ 4.51% ซึ่งถือว่าดีกว่าคู่แข่งแบบฟ้ากับเหว และในการทดสอบภายในสำหรับเพลงเต็ม ๆ ทั้งเพลง อัตราความผิดพลาดอยู่ที่ 9.96% เท่านั้น! ในขณะที่ Gemini-2.5-Pro ทำได้ 32.79% และ GPT4o-Transcribe ที่ทำไปถึง 58.59% ซึ่งต่างกันราวกับคนละจักรวาล

ฟีเจอร์สุดล้ำที่ทำให้ชีวิตง่ายขึ้น
นอกจากความแม่นยำขั้นเทพแล้ว เจ้า Qwen3-ASR-Flash ยังมีฟีเจอร์เด็ด ๆ ที่น่าสนใจอีกเพียบ!

Flexible Contextual Biasing: ฟีเจอร์นี้คือเกมเชนเจอร์ที่แท้ทรู! ลืมไปได้เลยกับการมานั่งทำ Keyword list แบบยุ่งยาก เพราะคุณสามารถป้อนข้อมูลอะไรก็ได้เข้าไป ไม่ว่าจะเป็นแค่คำศัพท์ง่าย ๆ เอกสารทั้งฉบับ หรือจะเป็นไฟล์ที่รวมข้อมูลแบบมั่ว ๆ เข้ามาก็ได้หมด! ตัว AI จะฉลาดพอที่จะดึงข้อมูลเหล่านี้ไปใช้เพื่อเพิ่มความแม่นยำในการถอดเสียง แต่ที่เจ๋งไปกว่านั้นคือ ต่อให้ข้อมูลที่คุณให้ไปไม่เกี่ยวข้องเลยกับสิ่งที่พูด ตัว AI ก็ยังคงประสิทธิภาพการทำงานได้ดีเหมือนเดิม ไม่ต้องกังวลว่ามันจะพาหลงทาง

รองรับหลากหลายภาษา: Alibaba ตั้งใจให้ Qwen3-ASR-Flash เป็นเครื่องมือระดับโลก เพราะมันสามารถถอดเสียงได้ถึง 11 ภาษา และยังครอบคลุมสำเนียงและภาษาถิ่นต่าง ๆ อีกเพียบ

ภาษาจีน: มีทั้งภาษาจีนกลาง (Mandarin) และภาษาถิ่นสำคัญ ๆ อย่างกวางตุ้ง, เสฉวน, หมิ่นหนาน (ฮกเกี้ยน) และอู่

ภาษาอังกฤษ: รองรับทั้งสำเนียงบริติช, อเมริกัน และสำเนียงท้องถิ่นอื่น ๆ

ภาษาอื่น ๆ: รวมถึงภาษาที่เราคุ้นเคยกันดีอย่าง ฝรั่งเศส, เยอรมัน, สเปน, อิตาลี, โปรตุเกส, รัสเซีย, ญี่ปุ่น, เกาหลี และอาหรับ

ฉลาดเกินเบอร์: Qwen3-ASR-Flash สามารถระบุได้ว่ากำลังพูดภาษาอะไรอยู่จาก 11 ภาษานั้น และยังสามารถตัดเสียงที่ไม่ใช่คำพูดออกไปได้ เช่น เสียงเงียบ หรือเสียงรบกวนต่าง ๆ ทำให้ผลลัพธ์ที่ออกมาสะอาดกว่าเครื่องมือถอดเสียงแบบเดิม ๆ เยอะมาก