NamiTech - Crystal Sound - Công nghệ AI trong phân tích về xử lý âm thanh - Video: THẾ KIỆT - MAI HUYỀN - NHÃ CHÂN
Công nghệ nhận diện khuôn mặt đã phổ biến, nhưng việc xác thực qua giọng nói không đơn giản. Đã có doanh nghiệp Việt NamiTech phát triển trí tuệ nhân tạo (AI) để nhận diện giọng nói, phân tích, lọc các tạp âm khi nói chuyện điện thoại... và được nhiều nơi trong, ngoài nước dùng.
Chủ tịch NamiTech, ông Nguyễn Thành Lâm chia sẻ:
- Tôi rời FPT Software sau hơn 15 năm. Thử thách trong một số lĩnh vực, tôi quyết định đầu tư tìm hiểu công nghệ AI, vì thấy đây là công nghệ có tiềm năng rất lớn. Đó cũng là lý do tôi gia nhập VinAI, vì ở đây tập trung một đội ngũ tài năng công nghệ.
Ứng dụng AI trong các sản phẩm ô tô, điện thoại, tôi nhận thấy hai điều. Một là AI thực sự có tiềm năng ứng dụng rất lớn. Hai là đội ngũ cán bộ công nghệ của mình rất giỏi, không thua kém bất cứ đâu, kể cả Thung lũng Silicon ở Mỹ. Đấy là lý do chính để tôi khởi nghiệp với AI.
Định danh khách hàng bằng giọng nói
* Nhưng AI ứng dụng trong vô vàn lĩnh vực, vì sao anh lại quyết định khởi nghiệp trong lĩnh vực xử lý âm thanh?
- Câu chuyện bắt đầu từ một bài toán khi còn làm ở VinAI. Điện thoại nào cũng cần có phần mềm xử lý nhiễu. Với mỗi điện thoại sản xuất, Vinsmart phải trả cho Công ty Qualcomm của Mỹ 50 cent (hơn 10.000 đồng) nếu dùng phần mềm của họ.
Chúng tôi thấy mình hoàn toàn có thể tự làm, và nếu mình làm bằng deep learning (học sâu) thì còn có thể làm tốt hơn làm theo kiểu xử lý tín hiệu truyền thống của họ. Với số lượng điện thoại dự kiến sản xuất hàng chục triệu chiếc/năm, đây sẽ là một khoản tiền lớn.
Khi làm, càng suy nghĩ về hướng âm thanh thì chúng tôi càng thấy nhiều tiềm năng, vì suy cho cùng, bên cạnh thị giác, âm thanh là nguồn thông tin quan trọng nhất giúp chúng ta giao tiếp với nhau và với thế giới.
Làm được phần xử lý nhiễu thì cũng có thể làm được phần xử lý giọng nói, nâng cao chất lượng giọng nói, nhận diện giọng nói... Câu chuyện cứ thế tiếp diễn.
* Vậy thực tế các doanh nghiệp đang sử dụng các phần mềm của anh vào hoạt động của họ ra sao?
- Chúng tôi rất mừng là sản phẩm sinh trắc học giọng nói (VoiceDNA) của chúng tôi đã được ngân hàng và công ty bảo hiểm trong, ngoài nước dùng để định danh khách hàng khi giao dịch qua tổng đài chăm sóc khách hàng và app điện thoại (mobile banking).
Phần mềm cũng được dùng để phát hiện các trường hợp bất thường như một khách hàng có quá nhiều hợp đồng bảo hiểm.
Riêng với phần mềm CrystalSound, chúng tôi đưa công nghệ tới người dùng qua nhiều hình thức. Người dùng thông thường có thể tự tải và cài phần mềm CrystalSound trên máy tính để lọc tiếng ồn xung quanh.
Với khách hàng doanh nghiệp, CrystalSound được cài đặt cho nhân viên. Chúng tôi cũng bán bản quyền phần mềm CrystalSound cho các nhà sản xuất thiết bị như tai nghe, máy tính hay thiết bị hội nghị truyền hình.
* Vậy AI đã được đưa vào các sản phẩm của NamiTech ra sao?
- Công nghệ AI vượt trội là một trong những vũ khí cạnh tranh cốt lõi của chúng tôi. AI giúp CrystalSound vượt trội hơn công nghệ xử lý tín hiệu số về chất lượng rất nhiều, nhưng yếu tố thành bại là làm sao đưa được AI này vào chạy trên những bộ vi xử lý thiết bị nhỏ như tai nghe bluetooth, đảm bảo tốc độ xử lý chỉ trong vài chục mili giây.
VoiceDNA có thể đăng ký giọng nói và định danh khách hàng với tốc độ nhanh gấp 3 lần đối thủ, nhưng làm sao để tích hợp vào tổng đài có sẵn của doanh nghiệp? Đó là những bài toán khó không kém gì việc tạo ra những thuật toán AI tốt.
Lối đi riêng từ thị trường ngách
* Thực tế, các phần mềm lọc âm, chuyển giọng nói thành văn bản đã có trên thị trường, các ông lớn công nghệ như Google cũng có công cụ này. Điều gì làm nên sự khác biệt của NamiTech?
- Tôi cho rằng điểm khác biệt của chúng tôi là đặt đúng trọng tâm và đảm bảo tốc độ phản ứng với nhu cầu của thị trường nhanh.
Ví dụ, với phần mềm lọc âm CrystalSound, ban đầu chúng tôi chỉ xử lý tiếng ồn môi trường không phải tiếng nói. Tuy nhiên, bám sát các hoàn cảnh sử dụng của khách hàng, chúng tôi thấy tiếng người khác nói bất kể vô tình hoặc cố ý cũng là một loại tiếng ồn gây khó chịu.
Ngay lập tức chúng tôi kết hợp công nghệ sinh trắc học giọng nói, cho phép người dùng đăng ký giọng nói của chính mình và từ đó trở đi CrystalSound sẽ xóa cả tiếng nói của người xung quanh, chỉ giữ lại giọng nói duy nhất của người dùng.
Còn với sản phẩm nhận diện giọng nói và phân tích hội thoại, chúng tôi nhận thấy điểm yếu của Google khi ứng dụng cho tiếng Việt và tiếng Nhật, đặc biệt là với cuộc hội thoại có nhiều người nói hoặc khi nó diễn ra trong môi trường có nhiều tiếng ồn, chất lượng thu âm hạn chế, trong khi đây mới là những điều kiện ứng dụng thực tế nhất.
Để NamiSense có thể dùng được, chúng tôi kết hợp nhiều công nghệ vốn dĩ tưởng như độc lập nhưng lại có tác dụng bổ trợ rất cao cho nhau. Sản phẩm có khả năng tùy chỉnh cao, cho phép khách hàng có thể đặt ra yêu cầu cụ thể phù hợp cho mục đích sử dụng của mình.
Trợ thủ đắc lực cho người làm việc tại nhà, họp trực tuyến...
- Phiên bản thử nghiệm đầu tiên của CrystalSound ra mắt năm 2021 trong mùa dịch. Một công ty viễn thông có hơn 500 nhân viên tổng đài phải làm việc tại nhà trở thành khách hàng của chúng tôi.
Làm việc tại nhà luôn luôn có tiếng ồn như tiếng con khóc, tiếng chó sủa hay tiếng mưa rào giội trên mái tôn. Chúng tôi nhận được rất nhiều đánh giá tích cực và lời cảm ơn của các bạn tổng đài viên vì đã giúp họ khử tạp âm.
Hay với VoiceDNA, chỉ cần 10 giây để đăng ký giọng nói và 3 - 5 giây để xác thực giọng nói thì khách hàng cả ở Việt Nam lẫn Mỹ đều rất quan tâm. Giải pháp của các đối thủ từ Mỹ đang có trên thị trường yêu cầu khách hàng phải nói liên tục một câu dài 30 - 45 giây trong điều kiện tuyệt đối yên tĩnh, điều này khiến tỉ lệ đăng ký giọng nói thành công vô cùng thấp.
VoiceDNA cho phép tự động lấy mẫu khi khách hàng giao tiếp bình thường, cỡ ba câu nói ngắn tổng thời gian 10 - 15 giây trong môi trường tiếng ồn thông thường, tăng tỉ lệ đăng ký thành công lên tới 5 - 6 lần.
Gần 1.000 start-up tham gia Tuổi Trẻ Start-Up Award
Qua 4 mùa, Tuổi Trẻ Start-Up Award đã nhận được gần 1.000 start-up từ các kênh gởi về. Qua các vòng: sơ loại từ khâu nhận hồ sơ, vòng thẩm định và đi thực tế của phóng viên, vòng sơ kết của ban tổ chức, đã có hơn 200 start-up lọt vào vòng chung kết.
Ở 3 mùa giải trước, số lượng start-up xuất sắc đi đến vòng chung kết là 150. Trong đó, số lượng start-up tiêu biểu đã được vinh danh từ 3 mùa trước là 70, trong đó có 2 start-up được hội đồng thẩm định bình chọn thêm để trao giải đặc biệt, với giá trị 100 triệu đồng/giải.
Ngoài việc được trao hỗ trợ và được vinh danh trong gala, các start-up khi được đăng trên mặt báo cũng cho biết đã nhận được rất nhiều kết nối từ đối tác, khách hàng, đặc biệt là các nhà đầu tư...
Năm nay, sẽ có khoảng 25-30 câu chuyện khởi nghiệp nổi bật được chọn để giới thiệu trên báo Tuổi Trẻ (online hoặc báo giấy, truyền hình Tuổi Trẻ, fanpage…) từ tháng 3 đến tháng 5-2023. Ban tổ chức sẽ chọn một số start-up tiêu biểu để hỗ trợ một khoản kinh phí với sự đồng hành của các đơn vị, như: VinaCapital, FE Credit, No.1, Thái Bình Group, IDICo, Volvo, Tín Nghĩa Corp., Saigontourist Group, Sân Golf Thủ Đức..., trong đó tiếp tục có 1 suất hỗ trợ đặc biệt dành cho start-up được hội đồng thẩm định bình chọn, trị giá 100 triệu đồng, từ GIBC.
Các start-up, nhóm bạn trẻ có ý tưởng khởi nghiệp hay và có tính thực tế cao, ứng dụng công nghệ, tạo lợi thế cạnh tranh, vận dụng AI, có tính bền vững, đóng góp cho cộng đồng, có giải pháp xanh, hướng đến môi trường... hoặc bạn đọc có các câu chuyện thiết thực phía sau những chân dung khởi nghiệp, từ hôm nay có thể gửi bài viết tự giới thiệu, những câu hỏi liên quan về địa chỉ email: tuoitrestartupaward@tuoitre.com.vn.
MINH HUỲNH
Với BenKon SmartAir - thiết bị giám sát thông minh, người dùng có thể điều khiển nhiều máy lạnh từ xa (không giới hạn khoảng cách) chỉ bằng chiếc điện thoại.
Xem thêm: mth.6680852282303202-ia-iov-peihgn-iohk-ceiv-ihgn-ehgn-gnoc-yt-gnoc-pes/nv.ertiout