Sự tiến bộ không ngừng của lĩnh vực công nghệ số cùng với công nghệ máy tính đã đem lại cho con người một cuộc sống nhiều ý nghĩa hơn và cũng nhiều tri thức hơn. Với những thiết bị tiên tiến, ngày nay người ta dễ dàng lưu trữ và chia sẻ những dữ liệu âm thanh trong rất nhiều lĩnh vực như bản tin thời sự, bản tin quảng cáo, các mẫu đối thoại hằng ngày, các cuộc hội nghị. Trong số đó, lĩnh vực hội nghị đang ngày càng được các nhà khoa học quan tâm nghiên cứu bởi những thành tựu thu được có thể mở ra nhiều ứng dụng to lớn cho các cá nhân, tổ chức, doanh nghiệp và cho cả chính phủ. Smart Meeting Room là thuật ngữ dùng để mô tả những thiết kế tiên tiến áp dụng trong lĩnh vực hội nghị. Smart Meeting Room là những phòng họp trong đó các thiết bị tương tác người dùng được lắp đặt và bố trí sao cho người nói và người nghe có thể phát huy tối đa năng lực của cuộc họp. Bên cạnh đó, các hệ thống hỗ trợ cho Smart Meeting Room có thể giúp ghi lại hay theo vết, nhận dạng những hoạt động và trạng thái của những người tham gia. Hiện nay các hệ thống xử lý tiếng nói liên quan đến lĩnh vực hội nghị bao gồm: Nhận dạng tiếng nói (Speech-to-text), Ghi nhật ký người nói (Speaker Diarization), Nhận dạng tiếng nói theo người nói (Speaker Attributed Speech-to-Text, là kết hợp của Ghi nhật ký người nói và Nhận dạng tiếng nói). Trong đó, Ghi nhật ký người nói là kỹ thuật chỉ mới được phát triển trong vài năm trở lại đây nhưng hứa hẹn mở ra nhiều thành tựu to lớn và do đó sẽ được tập trung nghiên cứu trong khuôn khổ luận văn này. Ghi nhật ký người nói là quá trình chia âm thanh thành các phân đoạn và gán nhãn theo định danh người nói cụ thể. Đầu ra của quá trình này sẽ là đầu vào cho bộ nhận dạng tiếng nói, từ đó chúng ta có thể xây dựng những ứng dụng như ghi nhật ký cuộc họp tự động hay tường thuật trực tiếp một trận đấu bóng đá. Xa hơn nữa, những dữ liệu (gồm âm thanh và văn bản) thu được từ các cuộc họp sẽ tạo thành kho dữ liệu quý giá cho các tác vụ truy vấn thông tin và tri thức trong tương lai. Với mục tiêu nghiên cứu về một số kỹ thuật xử lý âm thanh trong môi trường Smart Meeting Room, luận văn đã tiến hành nghiên cứu đề tài “Ghi nhật ký người nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room”. Cụ thể là: 1) Luận văn nghiên cứu các kỹ thuật phổ biến hiện nay cho việc Ghi nhật ký người nói cho dữ liệu hội nghị, 2) Luận văn nghiên cứu và trình bày một phương pháp phân nhóm cải tiến cho hệ thống Ghi nhật ký người nói, cho phép phân nhóm nhanh với độ chính xác tương đương những phương pháp phổ biến hiện nay nhưng chi phí tính toán rất thấp, có thể triển khai ở mức độ thời gian thực, 3) Hiện thực hóa hệ thống Ghi nhật ký người nói. Cấu trúc luận văn được tổ chức như sau: Chương 1 – Giới thiệu về Smart Meeting Room - Lý do nghiên cứu về lĩnh vực hội nghị và những thách thức của việc xử lý tiếng nói trong lĩnh vực này. - Giới thiệu về Smart Meeting Room và những hệ thống xử lý tiếng nói liên quan. Chương 2 – Phát biểu bài toán Ghi nhật ký người nói cho dữ liệu hội nghị - Giới thiệu bài toán Ghi nhật ký người nói cho dữ liệu hội nghị, sự cần thiết phải giải quyết bài toán và khảo sát các hướng tiếp cận phổ biến để giải quyết bài toán. - Định nghĩa hai tác vụ chính của bài toán: Phân đoạn và Phân nhóm. - Trình bày ý tưởng của phương pháp phân nhóm nhanh (Fast Clustering) cải tiến, nhằm đưa ra một giải pháp hiệu quả và nhanh chóng cho bài toán Ghi nhật ký người nói. Chương 3 – Hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị - Trình bày hai mô hình hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị mà luận văn xây dựng: mô hình xử lý đa kênh (mô hình nền – đây là mô hình phổ biến hiện nay) và mô hình xử lý nhanh (mô hình trực tuyến – đây là mô hình cải tiến của luận văn). - Các kĩ thuật quan trọng đóng vai trò then chốt cho hệ thống Ghi nhật ký người nói: phát hiện tiếng nói (Voice Activity Detection), lượng giá TDOA (Time Delay Of Arrival), chuẩn hoá TDOA. Phần này sẽ trình bày chi tiết về phương pháp cải tiến Fast Clustering. Chương 4 – Kết quả thực nghiệm và đánh giá: trong chương này, luận văn vận dụng hai hệ thống Ghi nhật ký người nói đã xây dựng để thực hiện các thực nghiệm và đánh giá, bao gồm: - Thử nghiệm hai hệ thống xây dựng trên các bộ dữ liệu khác nhau. - Thử nghiệm thời gian chạy của hệ thống cải tiến. - So sánh hiệu quả của hệ thống cải tiến và các hệ thống phổ biến khác. Kết luận và hướng phát triển: trình bày các ý tổng kết cho luận văn và hướng phát triển trong tương lai.
Chúng ta đang sống ở thế kỉ XXI, thế kỷ của tri thức khoa học và công nghệ cao. Điều đó đòi hỏi nền giáo dục nƣớc ta ...
Chủ nghĩa Mác - Lênin và tư tưởng Hồ Chí Minh đã khẳng định: Cách mạng là sự nghiệp của nhân dân, tất cả vì lợi ích ...
1.The necessity of the thesis Marxism-Leninism and Ho Chi Minh’s beliefs affirm that: Revolution is the cause of th ...
Ngay từ những ngày đầu cách mạng, Trung ương Đảng và Chủ tịch Hồ Chí Minh đã khẳng định công tác vận động quần chúng ...
Hiến pháp năm 2013 khẳng định các quyền con người, quyền công dân về chính trị, dân sự, kinh tế, văn hóa, xã hội đượ ...
Hỗ trợ download nhiều Website
Hỗ trợ nạp thẻ qua Momo & Zalo Pay
Khi đăng ký & nạp thẻ ngay Hôm Nay