Viettel OCR- Lời giải cho “Tự động hóa” dữ liệu

09:54:24 | 25/6/2021

Viettel OCR có thể giúp doanh nghiệp trong các ngành tài chính - ngân hàng, bảo hiểm, y tế, GTVT,... tiết kiệm 90% thời gian nhập liệu so với cách làm thủ công, độ chính xác đạt đến 99%.

Câu chuyện về OCR và sức mạnh ngầm công nghệ xử lý “big data”

Trong khoảng 3 năm gần đây, giải pháp số hoá văn bản OCR trở nên hấp dẫn với nhiều doanh nghiệp bởi sức mạnh xử lý dữ liệu của nó. Tại Việt Nam, mặc dù OCR được tiếp cận sau nhưng đến nay đã đạt được những kết quả tương đương với thế giới trong việc xử lý ngôn ngữ Tiếng Việt (các công ty công nghệ lớn trên thế giới thường tập trung xử lý ngôn ngữ Tiếng Anh).

Năm 2020, theo quy định của Thông tư 23/2019/TT-NHNN, các dịch vụ ví điện tử, thanh toán trung gian phải xác thực tài khoản người dùng qua CMND, hay các quy định liên quan đến mở tài khoản của Ngân hàng Nhà nước là động lực thúc đẩy Doanh nghiệp nhanh chóng ứng dụng OCR để trích xuất thông tin, tự động hóa quá trình nhập liệu và xét duyệt thông tin. Trước nhu cầu lớn, thị trường mở rộng, chính sách của nhà nước thúc đẩy chuyển đổi số là động lực để Trung tâm Không gian mạng Viettel đã tập trung nghiên cứu, đóng gói bộ giải pháp OCR trên cơ sở kết hợp các công nghệ:  Công nghệ nhận dạng ký tự quang học (OCR) cho phép nhận dạng tài liệu dạng PDF, dạng ảnh, văn bản giấy…; Công nghệ xử lý ngôn ngữ tự nhiên (NLP) tự động hiệu chỉnh thông tin đảm bảo độ chính xác cao về mặt ngữ nghĩa.

Sức mạnh của Viettel OCR còn đến từ công nghệ học sâu (Deep Learning) đem lại kết quả nhận dạng trên 99% đối với chữ in, trên 90% đối với chữ viết tay và lên tới 98% đối với việc trích xuất thông tin theo trường, vượt trội so với các nhà phát triển cùng lĩnh vực trên thị trường từ 4-5%.


Ảnh trải nghiệm tính năng Viettel OCR

Năm 2020 - cuộc dấn thân của Viettel OCR để giải quyết những case study cụ thể

Tháng 10/2020, trước bài toán của Công ty Cổ phần giao thông số Việt Nam (ePass) về việc triển khai mở tài khoản thu phí không dừng với tham vọng phủ rộng đến 4 triệu xe ô tô trong giai đoạn bùng nổ thị trường của dịch vụ này, Viettel OCR nhanh chóng đưa ra “lời giải” bằng việc xử lý quét tự động ~5000 bộ hồ sơ/ngày với độ chính xác lên tới 98%, áp dụng cho đa dạng các loại giấy tờ như: CMND, Bằng lái xe, Đăng ký xe, Đăng kiểm, Đăng ký kinh doanh... chuyển đổi thành dạng ký tự số có thể tìm kiếm, chỉnh sửa và lưu trữ dễ dàng. Có thể nói, cuộc “dấn thân” của OCR đóng góp phần vào tốc độ tăng trưởng thần tốc của ePass. Tính đến tháng 7/2020 đã có 800.000 tài khoản người dùng.

Với ngành tài chính ngân hàng, theo nghiên cứu của PricewaterhouseCoopers (PwC), trung bình, một tổ chức Tài chính phải trả 20 USD để gửi một hồ sơ, và khoảng 120 USD để tìm một hồ sơ bị thiếu theo cách thủ công. Thế nhưng, với mô hình OCR được thiết kế và lắp đặt đúng cách, doanh nghiệp sẽ có nguồn dữ liệu “sạch” ngay từ đầu, dễ dàng chỉnh sửa và đồng bộ hóa. Đặc biệt, dữ liệu được sắp xếp hệ thống hóa giúp dễ dàng quản lý và tái sử dụng trong kho dữ liệu lớn của doanh nghiệp, hỗ trợ hầu khắp các mẫu giấy tờ như: chứng minh nhân dân, hợp đồng, biên lai, mà còn là giấy vay tiền, báo cáo tài chính,… Tác động của công nghệ sẽ biến những quy trình từ rườm rà, phức tạp trở nên tối giản, tự động và chính xác. Viettel OCR dễ dàng tích hợp và triển khai trên các hệ thống như CMS, ERP, CRM… thông qua các API mở.

Piyush Gupta, CEO Ngân hàng DBS đã từng nói: “Tại DBS, chúng tôi hoạt động ít giống một ngân hàng mà như một công ty công nghệ hơn” – đây có lẽ là xu hướng có tính chất toàn cầu và đang dần hình thành tại Việt Nam.

Đầu năm 2021 - OCR đồng hành giải quyết bài toán khó cho ngành dược

Đầu năm 2021, Viettel OCR khởi động một dự án có tính đặc thù trong một ngành đặc biệt – đó là y tế. Với lượng dữ liệu siêu khủng, yêu cầu bảo mật nghiêm ngặt và tri thức ngành cao, Viettel OCR đang tham gia vào quy trình đăng ký lưu hành thuốc (tại Cục Quản lý Dược) và quy trình đăng đăng ký công bố/đăng ký quảng cáo thực phẩm bảo vệ sức khỏe (tại Cục An toàn thực phẩm).

Trước khi sử dụng Viettel OCR, Cục Quản lý Dược và Cục An toàn thực phẩm tiếp nhận xử lý các hồ sơ ở dạng bản cứng, doanh nghiệp cần đặt lịch hẹn và nộp trực tiếp tại trụ sở. Cục quản lý Dược đã từng phải sử dụng nhiều phòng làm việc chỉ để lưu trữ số lượng giấy tờ khổng lồ đó. Thời gian xử lý hồ sơ kéo dài gây tốn kém về nhân lực và thời gian.

Ứng dụng vào thực tế, Viettel OCR tham gia số hoá các hồ sơ đăng ký thuốc tại Bộ phận một cửa bằng cách kiểm tra tính thống nhất và tính đúng đắn của hồ sơ, hỗ trợ các chuyên gia thẩm định giấy tờ pháp lý, dược lý như: mẫu nhãn, hướng dẫn sử dụng, giấy phép thành lập văn phòng đại diện, giấy chứng nhận đủ điều kiện kinh doanh dược, hồ sơ kỹ thuật và theo dõi các quy định liên quan đến việc đáp ứng điều kiện kinh doanh thuốc (GMP, CPP, GLP,…). Thông tin được đối chiếu tự động từ Đơn đăng ký đến tài liệu chứng minh, từ đó cảnh báo các trường hợp sai lệch, không trùng khớp.

Giai đoạn 2, Viettel OCR rà soát, thẩm định 35 loại hồ sơ với các định dạng khác nhau và gần 60 trường thông tin sẽ được trích xuất, tạo hệ thống thông tin điện tử (metadata) hỗ trợ tra cứu, tìm kiếm, chỉnh sửa và lưu trữ. Ứng dụng công nghệ xử lý ngôn ngữ tự nhiên sẽ hỗ trợ kết quả trả về đúng ngữ nghĩa hơn và có thể kết nối với kho thông tin biệt dược gốc đồ sộ.

Kết quả thu được thật ấn tượng. Tốc độ nhập liệu của OCR cao hơn 50-60 lần so với cách làm thủ công; những căn phòng giấy tờ giờ thu gọn trong một vài máy chủ; nhu cầu duy trì tài liệu giấy gần như không còn, số giờ lao động tiết kiệm được là không hề nhỏ, độ chính xác ngày càng cao với cơ chế huấn luyện học máy.

Nói về lợi ích khi ứng dụng giải pháp Viettel OCR, ông Hoàng Trung Hiếu – Giám đốc sản phẩm chia sẻ: “Các tài liệu trong bộ hồ sơ đăng ký đến từ nhiều quốc gia khác nhau. Do đó ngôn ngữ là một rào cản đáng kể trong quá trình thẩm định hồ sơ. Việc chuyển đổi các tài liệu trong hồ sơ sang dạng văn bản có thể chỉnh sửa, tìm kiếm được giúp các chuyên viên dễ dàng dịch và tra cứu thông tin”.


Ông Hoàng Trung Hiếu – Giám đốc sản phẩm Viettel OCR

Không chỉ cơ quan nhà nước, các doanh nghiệp tham gia và các quy trình đăng ký là đối tượng được hưởng lợi nhiều nhất trong việc chuyển đổi số, sử dụng công nghệ thực hiện các việc thủ công có tính chất lặp đi lặp lại thay con người. Viettel OCR giúp nâng cao trải nghiệm của các doanh nghiệp, mang đến sự chuyên nghiệp, hạn chế những cảm xúc tiêu cực trong giao tiếp giữa người - người; mọi giao tiếp giữa chính quyền và doanh nghiệp sẽ được thực hiện và lưu trữ trên hệ thống.

T. Hà (Vietnam Business Forum)