A nyelvi elemzéshez manuálisan felépítettük a MedCollect korpuszt, amely 2206 (1.259.567 token) egészségügyi témájú szöveget tartalmaz, ebből 1448 (864.472) álhír, 758 (395.095) kontroll szöveg. A MedCollect korpuszba összesen 179 különböző portálról kerültek be a szövegek, a szövegek kb. 90 százaléka 26 portálról. A gyűjtött hírek keletkezési dátuma ennél nagyobb időtartamot ölel fel, a legkorábbi hír 2007-es, de a szövegek 75%-a 2020 utáni.
A MedCollect gyűjteményből az álhírekre jellemző szövegalkotási és mögöttes manipulációs stratégiák feltárásának céljából kézi annotálásra elkülönítettünk 707 (370.300) szöveget, melyből 322 (182.626) álhír, 385 (187.626) kontroll szöveg.
6722 Szeged, Egyetem utca 2. |
|
enyik@szte.hu |
MTA-SZTE-DE Elméleti Nyelvészeti és Informatikai Kutatócsoport
MTA Tudomány a Magyar Nyelvért Nemzeti Program
Álhírek, áltudományos nézetek nyelvészeti azonosítása alprogram
Szegedi Tudományegyetem
Bölcsészet- és Társadalomtudományi Kar
Általános Nyelvészeti Tanszék