Trường Sư phạm - Machine learning trong công cuộc phòng chống bạo lực trên mạng

8:37 SA 26/01/2024

Machine learning trong công cuộc phòng chống bạo lực trên mạng

Với tính chất ẩn danh và khả năng truy cập của mạng Internet, mỗi cá nhân có thể tham gia vào việc quấy rối hoặc đe doạ trên môi trường trực tyến, dẫn tới những hậu quả mang tính huỷ hoại đối với các nạn nhân.

Tuy nhiên, những tiến bộ về mặt công nghệ như máy học (machine learning) đã cung cấp những hy vọng trong việc cải thiện tính hiệu quả của việc phát hiện và phòng tránh các hành vi bạo lực qua mạng.

Máy học là một công cụ mạnh mẽ trong lĩnh vực trí tuệ nhân tạo, cho phép máy móc có thể học tập và nâng cao khả năng của chúng mà không cần tới các thao tác lập trình cụ thể. Đặc biệt, các thuật toán học máy có thể được huấn luyện để phát hiện ra những mẫu giao tiếp có biểu hiện của hành vi bắt nạt qua mạng. Những thuật toán này có thể nhận diện những thực thể của hành vi bắt nạt trong thời gian thực thông qua việc phân tích một lượng dữ liệu khổng lồ từ các nền tảng mạng xã hội, các ứng dụng nhắn tin và các nền tảng trực tuyến khác. Điều này góp phần tạo nên một hành lang vững chắc cho việc can thiệp và phòng chống hành vi bắt nạt.

PGS. Manjeevan Singh (Trường kinh tế,phân hiệu Đại học Monash tại Malaysia) cho biết một ứng dụng của học máy có thể nhận diện được hành vi bắt nạt đó là công nghệ xử lý ngôn ngữ tự nhiên (NPL-Natural Language Processing). Các thuật toán NPL có thể phân tích ngôn ngữ sử dụng để giao tiếp online nhằm phát hiện ra âm lượng, tình cảm của thông điệp, cũng như nhận diện được những thuật ngữ hoặc cụm từ cụ thể có liên quan tới hành vi bắt nạt.

Ví dụ, nếu một cá nhân thường sử dụng ngôn ngữ thô tục hoặc tạo ra những dòng trạng thái đe doạ, thuật toán có thể đánh dấu chúng vào nhóm có khả năng hành vi lạm dụng, đồng thời đưa ra cảnh báo tới các cơ quan chức năng.

Top view of little Asian boy child using computer tablet alone on sofa in dark room with cyberbullying emoticon

Theo PGS. Manjeevan, sử dụng học máy để nhận diện hành vi bắt nạt sẽ mang lại rất nhiều lợi ích, đặc biệt là trên góc độ khả năng mở rộng (scalability)-hệ thống có khả năng mở rộng nhanh chóng để ứng phó với những vấn đề phát sinh.

Các cách thức ngăn chặn truyền thống đối với bắt nạt qua mạng như giám sám thủ công các nền tảng trực tuyến có thể không hiệu quả và tốn thời gian, đặc biệt đối với các trang mạng xã hội có hàng triệu người dùng. Ngược lại, các thuật toán học máy có thể nhận biết và phản hồi với các biểu hiện bắt nạt qua mạng nhanh chóng và hiệu quả theo thời gian thực.

Tuy nhiên, hướng tiếp cận này cũng cho thấy một số thách thức. Để có thể huấn luyện cho các thuật toán, chúng ta cần một lượng lớn dữ liệu chất lượng cao, và điều này được cho là rất khó khăn.

A teenage student is the victim of cyber bullying, looking sad

Mặc dù bắt nạt qua mạng đang xuất hiện một cách tràn lan, hành vi này vẫn chưa được khám phá một cách đầy đủ ở một số lĩnh vực, trong đó có ngôn ngữ của một số quốc gia trên thế giới. Hiện nay việc truy cập công khai vào tập dữ liệu của một số quốc gia nhằm tìm hiểu thêm về nhóm ngôn ngữ gây thù hận được cho là rất khó khăn đối với các nhà nghiên cứu.

Ví dụ, hiện nay đang có nhiều nỗ lực nhằm thu thập dữ liệu về các dòng tweet tại Malaysia, sau đó xử lý chúng để loại bỏ những nội dung liên quan tới ngôn ngữ khác bị trộn lẫn trong đó. Mặc dù nỗ lực này mới chỉ bắt đầu với vài nghìn tweet, nó cũng thể hiện được điểm bắt đầu quan trọng cho những đề tài nghiên cứu sau này.

Sau khi dán nhãn một cách thủ công mỗi dòng tweet mang tính bắt nạt hay không, kết quả cho thấy 40% tập dữ liệu được lựa chọn chứa các nội dung bắt nạt. PGS. Manjeevan cho biết, để phân loại các dòng tweet, nhóm nghiên cứu đã thử nghiệm với một số mô hình học sâu (deep-learning), bao gồm Bert, XLnet, Fasttext. Điểm F1 của XLnet cao hơn so với Bert, với mức phân loại chính xác là 76%. Bằng cách kết hợp giữa XLnet và Fasttext, tỷ lệ chính xác tăng lên 80%. Tỷ lệ chính xác có thể sẽ được nâng cao hơn nữa nếu các công cụ được huấn luyện thêm và kết hợp với dữ liệu về ngôn ngữ thù hận. Nhằm hỗ trợ các nhà nghiên cứu tiến nhanh hơn trong đề tài của mình, tập dữ liệu kết quả này sẽ được truy cập công khai.

PGS. Manjeevan cho rằng hiện nay đang có sự gia tăng trong việc tận dụng công nghệ học máy để nhận diện và phòng chống bắt nạt qua mạng. Hành vi này có thể được giảm bớt, góp phần tạo ra một môi trường an toàn hơn cho tất cả người dùng Internet nếu các công cụ và chiến lược phù hợp được đưa ra.

Khoa Tâm lý-Giáo dục

Cùng chuyên mục

Xem thêm »