"Máy dịch" là dịch thuật tự động trên máy tính, ko với sự tham gia của con người, phân biệt với "người dịch". Hiện nay, các công cụ dịch trực tuyến mới chỉ hoạt động sở hữu dưới 100 trong số sắp 7.000 ngôn ngữ trên thế giới. 1 công nghệ mới mang thể thay đổi điều đấy.
Ước tính hiện có 6.900 ngôn ngữ khác nhau mà con người đang dùng. Hơn một nửa dân số toàn cầu giao tiếp bằng phương pháp dùng các ngôn ngữ phổ biến như tiếng Trung, tiếng Anh, tiếng Hindi, tiếng Tây Ban Nha và tiếng Nga. Thực tế, 95% dân số thế giới chỉ tiêu dùng 100 ngôn ngữ để giao tiếp.
các nhà ngôn ngữ học ước tính rằng khoảng một phần ba số ngôn ngữ trên thế giới chỉ có dưới một.000 người nhắc. Các ngôn ngữ này có thể biến mất trong vòng 100 năm tới, sở hữu đi theo di sản văn hoá độc đáo mà chúng chứa đựng: những thành ngữ, các câu truyện cười, các phương thuốc thảo dược và thậm chí là các cảm xúc độc đáo.
Liệu máy học (machine learning) với thể giúp bảo tồn những ngôn ngữ này hay không? Vấn đề là giai đoạn máy dịch dựa vào những bộ dữ liệu siêu lớn đã được chú thích. Lượng dữ liệu này bao gồm phổ biến sách, bài báo và trang web đã được dịch sang các ngôn ngữ khác theo cách thủ công. Tập dữ liệu càng to, máy dịch càng phải chăng.

Dữ liệu càng lớn, máy dịch càng tốt.
>>> Xem thêm: dịch vụ cho thuê máy photocopy giá tốt tại hà nội
Nhưng các bộ dữ liệu khổng lồ này ko tồn tại đối với mọi các ngôn ngữ. Đó là lý do tại sao máy dịch chỉ hoạt động với một phần vô cùng nhỏ trong số những ngoại ngữ rộng rãi nhất. Ví dụ, Google Translate, chỉ khiến cho việc được có khoảng 90 ngôn ngữ. Do đó 1 thách thức quan trọng đối sở hữu những nhà ngôn ngữ học là chọn ra bí quyết phân tích tự động các ngôn ngữ ít phổ biến để hiểu rõ hơn về chúng.
vừa qua, Ehsaneddin Asgari và Hinrich Schutze tại Đại học Ludwig-Maximilian ở Munich (Đức) nói rằng họ đã làm được điều đấy.
cách tiếp cận của họ tập trung vào các yếu tố quan trọng của mọi ngôn ngữ, từ ấy tạo ra 1 bước đệm cho máy dịch.
khoa học mới này dựa trên 1 văn bản duy nhất đã được dịch sang ít nhất 2.000 ngôn ngữ khác nhau. Đấy chính là Kinh thánh. Họ đã tạo ra một cơ sở dữ liệu được gọi là Parallel Bible Corpus, bao gồm bản dịch Tân Ước của một.169 ngôn ngữ. Bộ dữ liệu này ko đủ lớn cho máy dịch như của Google hay 1 số nền tảng khác. Do vậy, Asgari và Schutze đã đưa ra một phương pháp tiếp cận khác dựa trên cách thức thời gian xuất hiện (tense - thì/thời) trong các ngôn ngữ khác nhau.
mọi các ngôn ngữ sử dụng các từ, cụm từ cụ thể để thể hiện những thì. Vì vậy, thủ thuật mới là xác định thủ công các tín hiệu này bằng rộng rãi ngôn ngữ và sau ấy sử dụng khoa học khai thác dữ liệu (data-mining) vào các bản dịch khác nhằm tậu kiếm từ hay chuỗi ký tự đóng vai trò tương đương.
Ý tưởng ban đầu của Asgari và Schutze là tậu đa số các từ này trong bản dịch tiếng Anh của Kinh Thánh. Nhưng có một chút thay đổi, Asgari và Schutze không bắt đầu bằng tiếng Anh. Bởi vì ấy là một ngôn ngữ khá cũ có rộng rãi giả dụ ngoại lệ, khiến cho việc "học" trở nên cạnh tranh.
Thay vào đó, họ bắt đầu bằng 1 bộ ngôn ngữ Creole, vốn được vững mạnh từ rộng rãi ngôn ngữ khác nhau. Ngôn ngữ Creole trẻ hơn, ít bị tác động của lịch sử hơn. Mặt khác nó chứa những dấu hiệu rẻ hơn về chức năng của từ ngữ (cụ thể ở đây là thì).
công nghệ này cho phép các nhà nghiên cứu tạo ra những bản đồ cho thấy những ngôn ngữ sử dụng cấu trúc thì tương tự nhau có liên quan đến nhau như thế nào (xem sơ đồ dưới).

đấy là công việc thú vị. Asgari và Schutze đã phát triển 1 phương pháp tính toán để phân tích bí quyết con người sử dụng thì quá khứ, hiện nay và tương lai trong hơn 1.000 ngôn ngữ.
Đột phá này sở hữu ứng dụng quan trọng. Bản đồ về thì của ngôn ngữ cho phép những nhà nghiên cứu nhanh chóng tìm ra mối quan hệ giữa những ngôn ngữ và phương pháp chúng được kết nối. Điều ấy sở hữu thể được dùng để hiểu rõ hơn về sự tiến hóa của ngôn ngữ.
Ngôn ngữ học tính toán đã sở hữu tác động sâu sắc tới sự hiểu biết của chúng ta về ngôn ngữ, sự khác biệt của những ngôn ngữ trên thế giới và cách để máy móc có thể hiểu chúng. Lĩnh vực mới nổi này sở hữu thể giúp tự động dịch rộng rãi ngôn ngữ trực tiếp sang những ngôn ngữ khác dưới dạng văn bản hoặc giọng nhắc.
0 nhận xét:
Đăng nhận xét