Machine learning trong công cuộc phòng chống bạo lực trên mạng
Với tính chất ẩn danh và khả năng truy cập của mạng Internet, mỗi cá nhân có thể tham gia vào việc quấy rối hoặc đe doạ trên môi trường trực tyến, dẫn tới những hậu quả mang tính huỷ hoại đối với các nạn nhân.
Tuy nhiên, những tiến bộ về mặt công nghệ như máy học (machine learning) đã cung cấp những hy vọng trong việc cải thiện tính hiệu quả của việc phát hiện và phòng tránh các hành vi bạo lực qua mạng.
Máy học là một công cụ mạnh mẽ trong lĩnh vực trí tuệ nhân tạo, cho phép máy móc có thể học tập và nâng cao khả năng của chúng mà không cần tới các thao tác lập trình cụ thể. Đặc biệt, các thuật toán học máy có thể được huấn luyện để phát hiện ra những mẫu giao tiếp có biểu hiện của hành vi bắt nạt qua mạng. Những thuật toán này có thể nhận diện những thực thể của hành vi bắt nạt trong thời gian thực thông qua việc phân tích một lượng dữ liệu khổng lồ từ các nền tảng mạng xã hội, các ứng dụng nhắn tin và các nền tảng trực tuyến khác. Điều này góp phần tạo nên một hành lang vững chắc cho việc can thiệp và phòng chống hành vi bắt nạt.
PGS. Manjeevan Singh (Trường kinh tế,phân hiệu Đại học Monash tại Malaysia) cho biết một ứng dụng của học máy có thể nhận diện được hành vi bắt nạt đó là công nghệ xử lý ngôn ngữ tự nhiên (NPL-Natural Language Processing). Các thuật toán NPL có thể phân tích ngôn ngữ sử dụng để giao tiếp online nhằm phát hiện ra âm lượng, tình cảm của thông điệp, cũng như nhận diện được những thuật ngữ hoặc cụm từ cụ thể có liên quan tới hành vi bắt nạt.
Ví dụ, nếu một cá nhân thường sử dụng ngôn ngữ thô tục hoặc tạo ra những dòng trạng thái đe doạ, thuật toán có thể đánh dấu chúng vào nhóm có khả năng hành vi lạm dụng, đồng thời đưa ra cảnh báo tới các cơ quan chức năng.
Theo PGS. Manjeevan, sử dụng học máy để nhận diện hành vi bắt nạt sẽ mang lại rất nhiều lợi ích, đặc biệt là trên góc độ khả năng mở rộng (scalability)-hệ thống có khả năng mở rộng nhanh chóng để ứng phó với những vấn đề phát sinh.
Các cách thức ngăn chặn truyền thống đối với bắt nạt qua mạng như giám sám thủ công các nền tảng trực tuyến có thể không hiệu quả và tốn thời gian, đặc biệt đối với các trang mạng xã hội có hàng triệu người dùng. Ngược lại, các thuật toán học máy có thể nhận biết và phản hồi với các biểu hiện bắt nạt qua mạng nhanh chóng và hiệu quả theo thời gian thực.
Tuy nhiên, hướng tiếp cận này cũng cho thấy một số thách thức. Để có thể huấn luyện cho các thuật toán, chúng ta cần một lượng lớn dữ liệu chất lượng cao, và điều này được cho là rất khó khăn.
Mặc dù bắt nạt qua mạng đang xuất hiện một cách tràn lan, hành vi này vẫn chưa được khám phá một cách đầy đủ ở một số lĩnh vực, trong đó có ngôn ngữ của một số quốc gia trên thế giới. Hiện nay việc truy cập công khai vào tập dữ liệu của một số quốc gia nhằm tìm hiểu thêm về nhóm ngôn ngữ gây thù hận được cho là rất khó khăn đối với các nhà nghiên cứu.
Ví dụ, hiện nay đang có nhiều nỗ lực nhằm thu thập dữ liệu về các dòng tweet tại Malaysia, sau đó xử lý chúng để loại bỏ những nội dung liên quan tới ngôn ngữ khác bị trộn lẫn trong đó. Mặc dù nỗ lực này mới chỉ bắt đầu với vài nghìn tweet, nó cũng thể hiện được điểm bắt đầu quan trọng cho những đề tài nghiên cứu sau này.
Sau khi dán nhãn một cách thủ công mỗi dòng tweet mang tính bắt nạt hay không, kết quả cho thấy 40% tập dữ liệu được lựa chọn chứa các nội dung bắt nạt. PGS. Manjeevan cho biết, để phân loại các dòng tweet, nhóm nghiên cứu đã thử nghiệm với một số mô hình học sâu (deep-learning), bao gồm Bert, XLnet, Fasttext. Điểm F1 của XLnet cao hơn so với Bert, với mức phân loại chính xác là 76%. Bằng cách kết hợp giữa XLnet và Fasttext, tỷ lệ chính xác tăng lên 80%. Tỷ lệ chính xác có thể sẽ được nâng cao hơn nữa nếu các công cụ được huấn luyện thêm và kết hợp với dữ liệu về ngôn ngữ thù hận. Nhằm hỗ trợ các nhà nghiên cứu tiến nhanh hơn trong đề tài của mình, tập dữ liệu kết quả này sẽ được truy cập công khai.
PGS. Manjeevan cho rằng hiện nay đang có sự gia tăng trong việc tận dụng công nghệ học máy để nhận diện và phòng chống bắt nạt qua mạng. Hành vi này có thể được giảm bớt, góp phần tạo ra một môi trường an toàn hơn cho tất cả người dùng Internet nếu các công cụ và chiến lược phù hợp được đưa ra.
- Hình dung lại tương lai của AI trong hệ sinh thái giáo dụcTin tức31/10/2024
- Chẩn đoán ADHD đã thay đổi theo thời gianTin tức08/10/2024
- Khai giảng K65, trao QĐ công nhận kiểm định chất lượng giáo dục đối với chuyên ngành Thạc sĩ Quản lý giáo dụcTin tức30/09/2024
- Thông báo tuyển dụng viên chức và hợp đồng lao động năm 2024Tin tức26/09/2024
- Hiểu nhầm về chứng khó đọc khiến trẻ bị chẩn đoán saiTin tức08/09/2024
- Nghiên cứu quốc tế đã làm sáng tỏ lý do tại sao người tự kỷ tham gia vào các diễn đàn căm thùTin tức07/09/2024
- Thay vì tư vấn cặp đôi, chúng ta hãy dành ra một khoảng nghỉ trong 5 giâyTin tức05/09/2024
- Bạn đã sẵn sàng hợp tác với AI trong công việc chưa?Tin tức04/09/2024
- Current Status of Developing Primary School Teacher Training Programs Approaching CdioNghiên cứu16/11/2024
- Khoa Giáo dục Tiểu học tổ chức seminar khoa học về ứng dụng AI và hệ sinh thái Microsoft trong đào tạoNghiên cứu12/11/2024
- Tọa đàm kỉ niệm 65 năm thành lập khoa Ngữ văn (1959-2024)Tin tức11/11/2024
- KHOA VĂN NGÀY ẤY...Nghiên cứu07/11/2024
- THẦY... CHƠI CHỮNghiên cứu07/11/2024
- Kế hoạch tổ chức Tháng rèn luyện nghiệp vụ sư phạm và Hội thi Nghiệp vụ sư phạm Khoa Giáo dục Tiểu học năm học 2024-2025Đào tạo05/11/2024
- Hội thảo khoa học quốc gia “Một số vấn đề thời sự trong nghiên cứu và giảng dạy Toán học” (ngày 09 tháng 11 năm 2024)Tin tức04/11/2024
- Nhớ về một thế hệ vàng - Những người thầy của tôiKhoa Ngữ văn03/11/2024