A nyelvi elemzéshez manuálisan felépítettük a MedCollect korpuszt, amely 2206 (1.259.567 token) egészségügyi témájú szöveget tartalmaz, ebből 1448 (864.472) álhír, 758 (395.095) kontroll szöveg. A MedCollect korpuszba összesen 179 különböző portálról kerültek be a szövegek, a szövegek kb. 90 százaléka 26 portálról. A gyűjtött hírek keletkezési dátuma ennél nagyobb időtartamot ölel fel, a legkorábbi hír 2007-es, de a szövegek 75%-a 2020 utáni.
A MedCollect gyűjteményből az álhírekre jellemző szövegalkotási és mögöttes manipulációs stratégiák feltárásának céljából kézi annotálásra elkülönítettünk 707 (370.300) szöveget, melyből 322 (182.626) álhír, 385 (187.626) kontroll szöveg.
![]() |
6722 Szeged, Egyetem utca 2. |
![]() |
enyik@szte.hu |
MTA-SZTE-DE Elméleti Nyelvészeti és Informatikai Kutatócsoport
MTA Tudomány a Magyar Nyelvért Nemzeti Program
Álhírek, áltudományos nézetek nyelvészeti azonosítása alprogram
Szegedi Tudományegyetem
Bölcsészet- és Társadalomtudományi Kar
Általános Nyelvészeti Tanszék