NHẬN DIỆN THỰC THỂ CÓ TÊN - LITERATURE REVIEW
(NAMED ENTITY RECOGNIZATION - NER)
1. GIỚI THIỆU CHUNG
- Nhận diện thực thể có tên (Named Entity Recognition - NER) là một trong các công việc quan trọng và cơ bản trong xử lí ngôn ngữ tự nhiên. NER giúp hỗ trợ dịch máy tự động, truy xuất/truy vấn thông tin, tóm tắt văn bản, trả lời câu hỏi tự động...
- Nhận diện thực thể có tên gồm 2 tác vụ con sau đây:
- Nhận diện thực thể có tên trong văn bản đầu vào
- Gán nhãn cho các thực thể có tên đã nhận diện được
- Tầm quan trọng của việc nhận diện thực thể có tên đã được nhận ra từ khá lâu và được áp dụng rộng rãi để cải thiện các kết quả truy vấn thông tin tại cuộc thi MUC (Message Understanding Conference). Khởi đầu, các hệ thống nhận diện thực thể có tên được phát triển trên chỉ một đơn ngữ nhất định. Tuy nhiên, hiện nay các ứng dụng NER đã được mở rộng trên song ngữ, đa ngữ, ... để tăng độ chính xác nhờ vào các yếu tố bổ sung giữa các ngôn ngữ để khử nhập nhằng và tăng độ sửa lỗi lẫn nhau.
- Nội dung của bài báo cáo này bao gồm các phần:
- Nhãn thực thể.
- Nhận diện thực thể có tên trên đơn ngữ.
- Nhận diện thực thể có tên trên song ngữ.
2. NHÃN THỰC THỂ
- Sau khi nhận dạng ra được các thực thể có tên, ta sẽ tiến hành gán nhãn cho thực thể. Loại nhãn, số lượng nhãn rất đa dạng, phụ thuộc vào mục đích của ứng dụng. Tuy nhiên, trong báo cáo này, các nhãn được trình bày theo quy ước của MUC-7 [1]. Nhãn thực thể gồm 7 loại sau đây:
- Con người (PERSON): tên người và họ, bí danh, nghệ danh, ...
- Tổ chức (ORGANIZATION): tên tổ chức, cơ quan, chính phủ, công ty, các thực thể mang tính tổ chức ...
- Địa điểm (LOCATION): tỉnh, thành phố, vùng lãnh thổ, vùng nước, núi, quỹ đạo, cấu trúc địa điểm, các loại công trình ...
- Ngày (DATE): biểu thức về ngày
- Thời gian (TIME): biểu thức về thời gian trong ngày
- Tiền tệ (MONEY): biểu thức tiền tệ
- Phần trăm (PERCENT): phần trăm
- Tuy nhiên, trong một số bài báo, nghiên cứu chỉ tập trung vào việc nhận diện và gán nhãn 3 loại nhãn: con người, tổ chức, địa điểm [2], [3], [4] bởi vì các nhãn còn lại tương đối dễ nhận dạng dựa vào từ điển, đặc trưng ngôn ngữ, ...
3. NHẬN DIỆN THỰC THỂ CÓ TÊN TRÊN ĐƠN NGỮ
- Nhận diện thực thể có tên trên đơn ngữ là hướng tiếp cận đầu tiên và đa dạng nhất tính đến hiện nay. Sự đa dạng của nó nằm ở việc phát triển trên nhiều ngôn ngữ đặc biệt là các ngôn ngữ khan hiếm tài nguyên như tiếng Việt, Hoa, Bengali, ... Trong khi đó, với các ngôn ngữ như tiếng Anh, việc nhận diện thực thể có tên đã đạt được độ chính xác rất cao. Ví dụ trong MUC-7, hệ thống đạt độ chính xác cao nhất F-measure lên tới 93.39 \%. Một số ứng dụng nhận diện thực thể được công bố như: StandfordNER, OpenNLP, NETTagger, GATE...
- Một số thuật toán được sử dụng trong việc nhận diện thực thể trên đơn ngữ như:
- Dựa trên luật - đặc trưng ngôn ngữ: [2]
- Dựa trên ngữ liệu: bao gồm các phương pháp học giám sát, bán giám sát, không giám sát...
- Decision Tree: [5]
- Maximum Entropy: [3]
- Hidden Markov Model (HMM): [6]
- Conditional Random Fields (CRFs): [7]
- N-grams model: [8]
- Học bán giám sát: [9]
- Phương pháp kết hợp: là việc kết hợp nhiều phương pháp như kết hợp luật với các thuật toán máy học, kết hợp nhiều thuật toán máy học với nhau hoặc mở rộng ràng buộc dựa trên đặc điểm ngôn ngữ (phần 4) [2], [10], [11].
- Một số công trình nhận diện thực thể có tên được thực hiện trên tiếng Việt như: Tri Tran Q. - 2007 [18], Nguyen Cam Tu - 2009 [19],...
4. NHẬN DIỆN THỰC THỂ CÓ TÊN TRÊN ĐA NGỮ
- Sau khi đạt được những thành công trên ngữ liệu đơn ngữ, các nghiên cứu mới chuyển hướng sang việc dùng các ràng buộc trên dữ liệu song ngữ. Điều này là một khai phá trong lĩnh vực nhận diện thực thể có tên vì có thể tận dụng tốt các đặc trưng đa ngữ cũng như cơ sở đạt được trên các đơn ngữ như tiếng Anh, Pháp, Đức ...
- Trong việc nhận dạng thực thể có tên trên song ngữ, ta có thể chia làm 2 hướng tiếp cận chính:
- Bất đối xứng: Nhận diện thực thể có tên trên đơn ngữ A sau đó dựa vào gióng hàng của hai ngôn ngữ để suy ra thực thể cùng nhãn thực thể trên đơn ngữ còn lại. Một số công trình theo hướng tiếp cận này như: Lee - 2006 [12], Ruiji - 2010 [13], Ngo Quoc Hung - 2014 [14]... Tuy nhiên, phương pháp đối xứng mắc phải khá nhiều khuyết điểm. Đầu tiên, do chỉ tiến hành nhận diện trên đơn ngữ trong khi chưa có phương pháp nào đạt được độ chính xác tuyệt đối nên sẽ dẫn tới sai lệch trong việc gióng hàng. Tương tự như vậy, gióng hàng không chính xác cũng là một trong những nguyên nhân làm cho kết quả nhận diện giảm mạnh. Song song đó, còn có một số nguyên nhân khác như: chuyển vị, chuyển tự, ...
- Đối xứng: Thực hiện việc nhận diện thực thể độc lập trên cả hai ngôn ngữ. Sau đó, dựa vào ràng buộc gióng hàng để đối chiếu, suy dẫn, và chọn nhãn thích hợp trên các đơn ngữ. Một số công trình theo hướng tiếp cận này như: Huang - 2003 [15], Yufeng [16], [17]
- Tuy nhiên, trên tiếng Việt, số lượng nghiên cứu vẫn còn khá ít đặc biệt là sử dụng đặc trưng song ngữ. Một số công trình như: Ngo Quoc Hung - 2014 [14],Nguyễn Hồng Bửu Long [21], ... Đặc biệt là nhận diện thực thể có tên trên song ngữ Anh - Việt chỉ mới có một bài báo của Ngo Quoc Hung - 2014 [14] tiến hành bằng phương pháp bất đối xứng và luận văn thạc sĩ của Nguyễn Hồng Bửu Long [20] tiến hành bằng phương pháp đối xứng.
5. TÀI LIỆU THAM KHẢO
- Nancy A. Chinchor, MUC-7 Named Entity Task Definition (Version 3.5), Message Understanding Conference, 1998.
- Andrei Mikheev, Marc Moens, Claire Grover, Named Entity recognition without gazetteers, EACL '99 Proceedings of the ninth conference on European chapter of the Association for Computational Linguistics, Page 1-8, USA, 1999.
- Hai Leong Chieu, Named entity recognition with a maximum entropy approach, CONLL '03 Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003 -, Volume 4, Pages 160-163, USA, 2003.
- Zornitsa Kozareva, EACL '06 Proceedings of the Eleventh Conference of the European Chapter of the Association for Computational Linguistics: Student Research Workshop, Pages 15-21, USA, 2006.
- Hideki Isozaki, Japanese Named Entity Recognition based on a Simple Rule Generator and Decision Tree Learning, Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics, 2001.
- GuoDong Zhou, Proceeding ACL '02 Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Pages 473-480, USA, 2002.
- Aaron L. -F. Han, Derek F. Wong, Lidia S. Chao, Chinese Named Entity Recognition with Conditional Random Fields in the Light of Chinese Characteristics, Language Processing and Intelligent Information Systems, Lecture Notes in Computer Science Volume 7912, Page 57 - 68, 2013.
- Faryal Jahangir, N-gram and Gazetteer List Based Named Entity Recognition for Urdu: A Scarce Resourced Language, Proceedings of the 10th Workshop on Asian Language Resources, Page 95 - 104, India, 2012.
- Wenhui Liao, Sriharsha Veeramachaneni, A simple semi-supervised algorithm for named entity recognition, Proceeding SemiSupLearn '09 Proceedings of the NAACL HLT 2009 Workshop on Semi-Supervised Learning for Natural Language Processing, Pages 58-65, USA, 2009.
- Sujan Kumar Saha, Sanjay Chatterji, A Hybrid Approach for Named Entity Recognition in Indian Languages, Proceedings of the IJCNLP-08 Workshop on NER for South and South East Asian Languages, pages 17–24, India, 2008.
- S. Biswas, S. Mohanty, A Two Stage Language Independent Named Entity Recognition for Indian Languages, International Journal of Computer Science and Information Technologies, Vol. 1, 285-289, 2010.
- Lee, C. and Chang, J. S, Acquisition of English-Chinese Transliterated Word Pairs from Parallel-Aligned Texts, HLT-NAACL 2003 Workshop on Data Driven MT, pp. 96-103, 2003
- Ruiji Fu, Bing Qin, Ting Liu, Generating Chinese Named Entity Data from Parallel Corpora, Frontiers of Computer Science, Volume 8(4), pages 629 - 641, 2011.
- Quoc Hung-Ngo, Dinh Dien, Building English-Vietnamese Named Entity Corpus with Aligned Bilingual News Articles, 5th Workshop on South and Southeast Asian Natural Language Processing, Ireland, 2014
- Huang Fei, Stephan Vogel, AlexWaibel, Automatic extraction of named entity translingual equivalence based on multi-feature cost minimization, Proceedings of ACL’03, Workshop on Multilingual and Mixed-language Named Entity Recognition, pages 9–16, 2003.
- Yufeng Chen, Chengqing Zong, Keh-Yih Su, On jointly recognizing and aligning bilingual named entities, Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pages 631-639, 2010.
- Yufeng Chen, Chengqing Zong, Keh-Yih Su, A joint model to identify and align bilingual named entities, Computational Linguistics, 2013.
- Tri Tran Q., Nigel COLLIER, Named entity recognition in Vietnamese documents, Progress Informatics, No.4, pages 5 - 13, 2007.
- Nguyễn Cẩm Tú, Trần Thị Oanh, Phan Xuân Hiếu, Hà Quang Thụy, Named Entity Recognition in Vietnamese Free-Text and Web Documents Using Conditional Random Fields, the 8th Conference on Some selection problems of Information Technology and Telecommunication, 2005.
- Nguyễn Hồng Bửu Long, Luận văn thạc sĩ: Gióng hàng và nhận diện thực thể có tên trong song ngữ Anh Việt, Đại học KHTN - HCMVNU, 2014.
Không có nhận xét nào:
Đăng nhận xét