您当前的位置:首页 > IT编程 > 情感分类
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch | 异常检测 | Transformers | 情感分类 |

自学教程:虚假新闻检测,来自美团NLP团队方案

51自学网 2023-12-15 21:11:22
  情感分类
这篇教程虚假新闻检测,来自美团NLP团队方案写得很实用,希望能帮到您。

虚假新闻检测,来自美团NLP团队方案

 这篇文章主要以第二名为讨论对象,来自美团NLP团队。同时会对比第一名和第三名的方案。此外,给出了SemEval2019的答案分类任务上的第一名方案,和该比赛联系较多。

虚假新闻检测,来自美团NLP团队方案_数据

虚假新闻检测,来自美团NLP团队方案_数据集_02

前三名详细方案获取方式:

关注微信公众号 datayx  然后回复  新闻  即可获取。

AI项目体验地址 https://loveai.tech

一.背景

从标题来看,做成一个二分类问题更加地直接,而本届比赛的思路则不同。前者二分类问题的输入是一个文本(新闻标题/新闻文本/新闻标题+新闻内容) ,而比赛的数据输入是两个文本(新闻标题),输出是三分类的标签(一致/不一致/无关)。这样的话,显然自然语言推理(NLI)的任务中的方法自然适合用于该比赛。

二.数据介绍

训练样本量为32万,测试样本量为8万。由于输入是新闻标题,长度在20-100词之内。既然是分类问题,多数情况下要考察不平衡现象。三类样本的占比如下:

虚假新闻检测,来自美团NLP团队方案_数据_03

由上表可以得出结论:类别严重不平衡。

三.数据预处理和数据增强

1.数据预处理

结合数据特点,使用各种数据预处理方法。例如繁简转换,停用词过滤等。

2.数据增强

(a)标签传播

标签传播的思想作为一种数据增强手段,用处较多。在拍拍贷-问题相似度比赛中,仍旧可以采用该方法做数据增强。

假设A和B是一致的,A和C是一致的,显然B和C应该是一致的;

假设A和B是一致的,A和D是不一致的,则B和D也是不一致的;

(b)位置交换

A和B是一致的,则B和A也是一致的。

四.模型选择

BERT为主,辅助SVM,LR,KNN,NB

五.策略设计

模型融合,设计三层。第一层:25个BERT基模型;第二层:SVM/KNN/NB等传统数据挖掘模型;第三层:LR模型

六.评估指标

带有权重的分类准确率。其中,具体权重分配如下表:

虚假新闻检测,来自美团NLP团队方案_数据_04

结论:少数类样本,权重大。通过这种方式,引导模型去关注少数类样本或者说希望选择一个对少数类关注度较高的模型。

七.线上结果

虚假新闻检测,来自美团NLP团队方案_数据集_05

官方提供的中文BERT是在中文维基百科语料上训练得到的,语料数据和新闻语料是有区别的。能够将中文BERT继续在新闻数据上训练,提升中文BERT对新闻数据的表征能力。实际上,就在写这篇文章的当日,百度放出了ERNIE,或许基于ERNIE可以在该比赛基础上进一步提升。


 
改进:
(1)mask的粒度:字(BERT)->词(ERNIE),不过输入仍旧是字。
(2)语料:中文维基百科(BERT)->百科类+新闻资讯类+对话类(ERNIE)。
  • 1.
  • 2.
  • 3.

虚假新闻检测数据集

1.FakeNewsNet

下载链接:https://github.com/KaiDMML/FakeNewsNet

说明:该数据集包含新闻内容和正确标注真假新闻标签的社会语境特征。

使用论文:

(1)A Stylometric Inquiry into Hyperpartisan and Fake News

(2)Exploiting Tri-Relationship for Fake News Detection

2.BuzzFeedNews

链接:https://github.com/BuzzFeedNews/2016-10-facebookfact-check/tree/master/data

说明:该数据集包括完整的Facebook新闻发布于接近2016年美国大选从9月19日到23日以及9月26日和27日。

3.LIAR

链接:http://www.cs.ucsb.edu/~william/software.html

说明:该数据集是从PolitiFact收集,包括简短陈述,例如新闻稿,电视

或电台采访,竞选演讲等,并包含元数据。

使用论文:

(1)“Liar,LIar Pants on Fire”:A New Benchmark Dataset for Fake News Detection

(2)Multi-Source Multi-Class Fake News Detection

4.BS Detector

链接:https://github.com/bs-detector/bs-detector

说明:为新闻浏览器导出的数据集,包含新闻内容和正确标注真假新闻标签。

5.CREDBANK

链接:http://compsocial.github.io/CREDBANK-data/

说明:推特的大数据集,包含新闻内容和人工标注标签。

数据集涉及的内容如下:

6.Twitter and Weibo DataSet

链接:https://github.com/majingCUHK/Rumor_RvNN

http://alt.qcri.org/~wgao/data/rumdect.zip

说明:5000条言论带着500w的转发量

使用论文:

(1)CSI: A Hybrid Deep Model for Fake News Detection

(2)Detecting rumors from microblogs with recurrent neural network

(3)Early Detection of Fake News on Social Media Through Propagation Path Classification with Recurrent and Convolutional Networks

7.Twitter15 Twitter16

链接:

https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0

说明:谣言数据

使用论文:

Detect Rumors in Microblog Posts Using Propagation Structure via Kernel Learning

8.推特语料

链接:http://www.cs.jhu.edu/svitlana/

说明:具体时间事件所搜集的数据集

使用论文:

Separating Facts from Fiction Linguistic Models to Classify Suspicious and Trusted News Posts on Twitter

9.包含图的假新闻数据集

链接:

https://drive.google.com/open?id=0B3e3qZpPtccsMFo5bk9Ib3VCc2c

说明:文本+图像

使用论文

TI-CNN: Convolutional Neural Networks for Fake News Detection

10.谣言数据集

链接:http://mia.kaist.ac.kr/publications/rumor.

说明:数据集包含三个维度:时间,结构和语言

使用论文:

Prominent features of rumor propagation in online social media


返回列表
Elsevier: Expert Systems With Applications 经验分享
51自学网自学EXCEL、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。
京ICP备13026421号-1