A SZAB Nyelvtudományi Munkabizottság és az MTA-SZTE-DE Elméleti Nyelvészeti és Informatikai Kutatócsoport workshopot szervez a Magyar Tudomány Ünnepére
címmel.
Az MTA Tudomány a Magyar Nyelvért Nemzeti Program Álhírek, áltudományos nézetek nyelvészeti azonosítása című alprogramjának rendezvénye
Időpont:
2024. november 8., 9.00 óra
Helyszín:
Szegedi Tudományegyetem Bölcsészet- és Társadalomtudományi Kar, Kari Konferenciaterem, Szeged, Egyetem u. 2.
Az MTA Tudomány a Magyar Nyelvért Nemzeti Program Álhírek, áltudományos nézetek nyelvészeti alapú azonosítása c. alprogramjának workshopján a projekt második évének eredményeit mutatjuk be és vitatjuk meg.
Az előadók a projekt munkatársai, az MTA-SZTE-DE Elméleti Nyelvészeti és Informatikai Kutatócsoportjának a tagjai tudományelméleti, nyelvészeti és informatikai kutatásaik eredményeivel járulnak hozzá a projekt 3 fő céljának a megvalósításhoz:
| 9.00–9.10 | Megnyitó: Németh T. Enikő |
| 1. szekció, levezető elnök: Csendes Tibor | |
| 9.10–9.35 | Berend Gábor: Nagy nyelvi modellek fölhasználása az automatikus álhírfelismerési feladatban |
| 9.35–10.00 | Ficsor Tamás: Topikorientált adatgyűjtés és feldolgozás |
| 10.00–10.25 | Szécsényi Tibor, Virág Nándor: Automatikus felszólításannotálás nagy nyelvi modellel |
![]() |
|
| 10.25–10.40 | Szünet |
| 2. szekció, levezető elnök: Csatár Péter | |
| 10.40–11.05 | Rákosi Csilla: A pragmatika szerepe az áltudomány definiálásában, avagy definiálható-e az áltudomány fogalma a nyelvészeti pragmatika eszközeivel |
| 11.05–11.30 | Németh T. Enikő, Nagy C. Katalin és Németh Zsuzsanna: Implicit pragmatikai jelenségek korpusz-alapú összehasonlító elemzése egészségügyi témájú valódi hírek és álhírek címeiben |
| 11.30–11.55 | Bibok Károly: A fokozás fajtái egészségügyi álhírekben és valódi hírekben |
![]() |
|
| 11.55–13.30 | Ebéd |
| 3. szekció, levezető elnök: Németh Zsuzsanna | |
| 13.30–13.55 | Bozsik Tamara, Németh T. Enikő: Verbális agresszió az egészségügyi álhírekben? – Egy esettanulmány tanulságai |
| 13.55–14.20 | Kovács Pál: A szándékoltság pragmatikai megközelítése szövegszervező elemek vizsgálatával álhírekben |
| 14.20–14.45 | Szabó Éva: Idézés az áltudományos szövegekben a MedCollect korpusz alapján |
![]() |
|
| 14.45–15.00 | Szünet |
| 4. szekció, levezető elnök: Németh T. Enikő | |
| 15.00–15.25 | Nagy C. Katalin, Virág Nándor, Karai Bence: Indirekt direktívák annotálása a MedCollect korpuszban |
| 15.25–15.50 | Gencsi Mihály: Nagy nyelvi modellek generált szövegeinek vizsgálata az álhírfelismerési feladatban |
| 15.50–16.15 | Vörös Richárd: Az álhírdetektáló böngésző bővítmény és Android alkalmazás fejlődése és működése |
![]() |
|
| 16.15 | Zárszó: Németh T. Enikő |
Előadásunkban röviden bemutatjuk a nagy nyelvi modellek működését és azok limitációit. Ezt követően szót ejtünk a modellek generatív képességeinek az álhírek azonosításában történő alkalmazásáról. Az előadás során végezetül ismertetjük az egészségügyi témában létrehozott MedCollect álhírkorpuszon a nagy nyelvi modellek segítségével kapott első eredményeinket.
Az interneten hatalmas mennyiségű információ áll rendelkezésünkre, azonban ezen tartalmak nagyrészt kategorizálatlanul fellelhetőek. Számos feladat megoldásához viszont elkerülhetetlen, hogy a tartalomról valamilyen információval előre rendelkezzünk. A dokumentumok automatikus kategorizálása ennél fogva egy fontos előszűrési lépésnek tekinthető bármely feladat megoldásához. A rengeteg lehetséges kategória közül elsősorban az orvosi és gyógyszerészeti tematikájú szövegek felügyelet nélküli felfedezésére és azonosítására teszünk kisérletet.
A MedCollect korpusz feldolgozása során korábban a felszólító alakok különböző funkcióinak azonosítása történt kézi annotálással. A funkciók azonosításánál nemcsak az alakok közvetlen környezetét kellett figyelembe venni, hanem a tágabb kontextust is. Emiatt az annotálási folyamat hosszú ideig tartott és nagy szakértelmet igényelt.
Ahhoz, hogy a kézi annotálás eredményeit felhasználhassuk egy automatikus álhírdetektáló eszközben, arra van szükség, hogy ezeket a jellemzőket új, ismeretlen szövegen is azonosítani lehessen. Ezért a felszólításannotálás automatizálásával kapcsolatban gépi tanulási kísérleteket végeztünk. A kísérletek arra vonatkoztak, hogy mekkora kontextus szükséges egy automatikus annotáló eszköz hatékony működéséhez. A kísérletek során az annotált korpusz 128, 256 és 512 token hosszúságú szegmentumaival finomhangoltuk a használt huBert nagy nyelvi modellt. A
kísérletek eredményeként a direktívák típusaival kapcsolatban a kézi annotátorok hatékonyságával összevethető eszközt készítettünk.
A legjobban teljesítő modell esetében azt is megvizsgáltuk, hogy az adott nagyságú kontextusok különböző részeiben (eleje, közepe, vége) eltérő volt-e a modell pontossága. A vizsgálat kimutatta, hogy a bal oldali kontextus jobban befolyásolta az annotálás hatékonyságát.
Az 'áltudomány' fogalmát többen is megkísérelték a 'bullshit' fogalma segítségével definiálni (Ladyman 2013, Moberger 2020), a 'bullshit' fogalmát pedig néhányan pragmatikai eszközök alkalmazásával értelmezték (Fallis 2009, Dynel 2011, Meibauer 2016). Az előadásomban azt a kérdést szeretném körbejárni, hogy vajon az áltudomány definiálásánál is alkalmazhatók/alkalmazandók-e a nyelvészeti pragmatika (beszédaktus-elmélet, társalgási implikatúrák) eszközei.
A kattintásvadászat hírcímek terjedése utat nyithat a manipulatív tartalmak terjedésének. Jóllehet a szakirodalom eddig a jelenséghez köthető explicit nyelvi szközöket vizsgálta, a
clickbaitcímek nagy része az implicitség nyelvi eszközeivel is manipulál. Előadásunkban három rejtett jelenség (implicit argumentumok, rejtett tartalmak a beszédaktusokban és implikatúrák) kvalitatív és kvantitatív összehasonlító elemzését végezzük el 600-600 db valódi- és álhírcímben az egészségügyi híreket tartalmazó MedCollect korpuszon.
Konklúziónk, hogy az implicitség az álhírekben gyakrabban szolgál mögöttes manipulatív célokat (pszichológiai hatások keltése, kattintásvadászat), az implicit argumentumok, a várható tartalom szempontjából nem releváns információk és a társalgási implikatúrák gyakoribb alkalmazásával. Ezzel szemben a valódi hírek címei szerkezetileg egyszerűbbek, információtartalmuk relevánsabb és az implicitség általában a cím elvárható tömörsége, összefoglaló funkciója miatt jelenik meg.
A MedCollect korpusz további annotálásának, valamint az egészségügyi álhírek és valódi hírek összehasonlíthatóságának keretében a fokozás három típusa különböztethető meg. A hagyományos morfológiai fokjelen, valamint a fok- és mértékhatározón túl bevezetjük a lexikai fokozás fogalmát. A lexikailag nem fokozott szavakon túl lexikailag fokozott elemek is részt vehetnek a fokjeles szóalakokban, valamint a fok- és mértékhatározós szószerkezetekben (akár determinánsként, akár alaptagként).
Az álhírekben a dezinformáció és a nem szándékos félretájékoztatás gyakran megjelenő elemek, melyek kéz a kézben járnak a gyűlöletbeszéddel. A gyűlöletbeszéd, mely a verbális agresszió egyik megnyilvánulási formája, megjelenik az egészségügyi álhírekben is. Hogyan ismerhető fel a gyűlöletbeszéd az álhírekben?
Az előadás arra tesz kísérletet, hogy korpuszmódszerekkel és a pragmatika fogalomkészletével azonosítson szövegszervező lexémákat, amelyek segítségével megragadható a közlői szándék az álhírekben. Ezt az előadás a valójában lexéma elemzésén keresztül járja körül, amely szövegszervező funkciója mellett olyan pragmatikai mechanizmusokra is enged következtetni, amelyek túlmutatnak a szöveg felszíni struktúráján, és számot adhatnak a közlői szándékról is. Javaslatot teszek a lexéma együttes előfordulási konfigurációinak lehetséges kategorizálására, amely minden esetben megköveteli a szövegszintű kontextus figyelembevételét is. Az álhírkorpusz találatai alapján kifejtem: a (i) de + valójában együttes előfordulásának konfigurációja, a (ii) mi + valójában? idiomatikus konfiguráció, és a (iii) nyomatékosító valójában típusának pragmatikai működésmódját. Az egyes altípusok sajátosságai mellett rámutatok arra is, hogy létezik egy magfunkció, amely a valójában lexéma használata esetében állandó: háttérfelvetések mozgósításával létrehoz egy logikai sémát, amely tagadott és preferált kijelentések halmazaiba tagolja a szöveg kifejtett és kifejtetlen tartalmait. Ez a funkció teszi fontos szövegszervező elemmé a lexémát, amely az álhírek szövegtípusában sematikusan működik.
Az álhírek egyik típusának tekinthető áltudományos szövegek a tudományosság látszatát keltik, mivel tudományos módszereket, terminusokat alkalmaznak, egyúttal forrásmegjelölés és idézés is felfedezhetők bennük, melyek fokozhatják meggyőző erejüket. Az előadás a MedCollect korpusz 900, áltudományosnak tekinthető szövegét vizsgálja az idézési módok szempontjából, melynek fókuszában az összetett jelenetként megkonstruált, a mond és az állít idéző igéket tartalmazó idézések állnak (vö. Csontos 2023).
A közvetlen direktívák annotálásának kiegészítéseként a felszólítások indirekt formáinak annotálását tűztük ki célul a MedCollect egészségügyi (álhír)korpusz szövegeiben. Egyes megnyilatkozásokban a felszólító funkció köthető valamely nyelvi elemhez (konvencionálisan indirekt direktívák), míg másokban nem (nem konvencionálisan indirekt direktívák). Amennyiben van olyan nyelvi szerkezet, amelyhez konvencionálisan köthető ez a funkció, akkor azt is megjelöltük. Ez utóbbi cél elősegítésére az annotálásra előkészített szövegben meg lettek jelölve a potenciálisan direktív funkciójú nyelvi egységek. Az előadásban bemutatjuk az annotálás menetét, a kategóriákat, végül az eredményeinket értelmezve összehasonlítjuk az indirekt direktívák használatát korpuszunk álhíreiben és valódi híreiben.
A Generatív Nagy Nyelvi Modellek lehetőséget biztosítottak a szövegek alaposabb elemzésére, ezáltal alkalmazhatóvá váltak az álhírek felismerésében is. Egy jól megfogalmazott kérdés segítségével szélesebb körű információkhoz juthatunk az elemzett szövegekről. Jelen előadásban arra helyezzük a hangsúlyt, hogyan hasznosíthatjuk a Generatív Nagy Nyelvi Modellek eredményeit a jelenlegi megoldásokban.
| 6722 Szeged, Egyetem utca 2. |
|
| enyik@szte.hu |
MTA–DE–SZTE Research Group
for Theoretical Linguistics
Science for the Hungarian Language National Programme of the Hungarian Academy of Sciences (MTA)
Linguistic identification of fake news and pseudoscientific views
University of Szeged
Faculty of Humanities and Social Sciences
Department of General Linguistics
