<p> Nhận dạng văn bản là một lĩnh vực đã được quan tâm nghiên cứu và ứng dụng trong nhiều năm nay. Quá trình nhận dạng văn bản được thực hiện qua các bước chính như sau: Trang ảnh đầu vào sẽ qua bước tiền xử lý, sau đó là bước phân tích trang, kết quả đầu ra của phân tích trang sẽ là đầu vào của bước nhận dạng, cuối cùng là bước hậu xử lý. Kết quả của một hệ thống nhận dạng phụ thuộc chính vào hai bước: phân tích trang và nhận dạng. Đến thời điểm này, bài toán nhận dạng trên các văn bản chữ in đã được giải quyết gần như trọn vẹn (sản phẩm thương mại FineReader 12.0 của hãng ABBYY có thể nhận dạng chữ in trên nhiều ngôn ngữ khác nhau, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 của Viện Công nghệ Thông Tin Hà Nội có thể nhận dạng với độ chính xác trên 98%). Tuy nhiên trên thế giới cũng như ở Việt Nam, bài toán phân tích trang vẫn còn là một thách thức lớn đối với các nhà nghiên cứu. Cho đến này phân tích trang vẫn đang nhận được sự quan tâm của nhiều nhà nghiên cứu. Cứ hai năm một lần trên thế giới lại có cuộc thi phân tích trang quốc tế nhằm thúc đẩy sự phát triển các thuật toán phân tích trang. Chính những điều này đã là động lực thúc đẩy luận án cố gắng nghiên cứu để đề xuất các giải pháp hữu hiệu cho bài toán phân tích trang.ThuậtTrong những năm gần đây đã có rất nhiều các thuật toán phân tích trang được phát triển, đặc biệt là các thuật toán phát triển theo hướng tiếp cận lại ghép (hybrid). Các thuật toán được đề xuất đều thể hiện những điểm mạnh, điểm yếu khác nhau, nhưng nhìn chung hầu hết vẫn mắc phải hai lỗi cơ bản là: lỗi phân tách một vùng chữ đúng ra thành các vùng chữ nhỏ hơn làm sai hoặc mất thông tin của các dòng chữ hay đoạn văn bản (over-segmentation), lỗi gộp các vùng chữ ở các cột văn bản hay các đoạn văn bản lại với nhau (under-segmentation). Vì vậy mục tiêu của luận án là nghiên cứu phát triển các thuật toán phân tích trang giảm đồng thời cả hai kiểu lỗi: over-segmentation, under-segmentation. Các vấn đề trong phân tích trang là rất rộng vì vậy luận án giới hạn phạm vi nghiên cứu trong khuôn khổ các trang ảnh văn bản được soạn thảo bằng ngôn ngữ Latin cụ thể là Tiếng Anh và tập trung vào phân tích các vùng chữ. Luận án chưa đề xuất đến vấn đề phát hiện và phân tích cấu trúc của các vùng bảng, phát hiện các vùng ảnh và phân tích cấu trúc logic. Với những mục tiêu đặt ra luận án đã đạt được một số kết quả sau: 1. Đề xuất một giải pháp làm tăng tốc thuật toán phát hiện nền trang ảnh. 2. Đề xuất phương pháp tham số thích nghi làm giảm sự ảnh hưởng của kích cỡ và kiểu phông chữ đến kết quả phân tích trang. 3. Đề xuất một giải pháp mới cho vấn đề phát hiện và sử dụng các đối tượng phân tách trong các thuật toán phân tích trang. 4. Đề xuất một giải pháp mới tách các vùng chữ thành các đoạn văn bản dựa trên phân tích ngữ cảnh. </p>
<p> Đất nước ta đang trên đà phát triển theo hướng công nghiệp hóa, hiện đại hóa. Cùng với đó là nhu cầu sử dụng năng lư ...
<p> Hiện nay tình trạng giết mổ gia súc, gia cầm thủ công tự phát đang xảy ra ở rất nhiều nơi. Với số lượng điểm giết mổ ...
<p> Đặt vấn đề Một trong những vấn đề nằm trong những quan tâm hàng đầu đặt ra cho sự nghiệp đổi mới đất nước, đó là ph ...
<p> Tiến bộ của khoa học và công nghệ ngày càng được ứng dụng phục vụ công cuộc chăm sóc sức khỏe con người nhiều hơn.Kỹ ...
<p> Nghị quyết số 29-NQ/TW ngày 04 tháng 11 năm 2013 của Hội nghị lần thứ tám, Ban Chấp hành Trung ương Đảng khóa XI về " ...
Hỗ trợ download nhiều Website
Hỗ trợ nạp thẻ qua Momo & Zalo Pay
Khi đăng ký & nạp thẻ ngay Hôm Nay