A SZAB Nyelvtudományi Munkabizottság és az MTA-SZTE-DE Elméleti Nyelvészeti és Informatikai Kutatócsoport workshopot szervez a Magyar Tudomány Ünnepére
címmel.
Az MTA Tudomány a Magyar Nyelvért Nemzeti Program Álhírek, áltudományos nézetek nyelvészeti azonosítása című alprogramjának rendezvénye
Időpont:
2024. november 8., 9.00 óra
Helyszín:
Szegedi Tudományegyetem Bölcsészet- és Társadalomtudományi Kar, Kari Konferenciaterem, Szeged, Egyetem u. 2.
Az MTA Tudomány a Magyar Nyelvért Nemzeti Program Álhírek, áltudományos nézetek nyelvészeti alapú azonosítása c. alprogramjának workshopján a projekt második évének eredményeit mutatjuk be és vitatjuk meg.
Az előadók a projekt munkatársai, az MTA-SZTE-DE Elméleti Nyelvészeti és Informatikai Kutatócsoportjának a tagjai tudományelméleti, nyelvészeti és informatikai kutatásaik eredményeivel járulnak hozzá a projekt 3 fő céljának a megvalósításhoz:
9.00–9.10 | Megnyitó: Németh T. Enikő |
1. szekció, levezető elnök: Csendes Tibor | |
9.10–9.35 | Berend Gábor: Nagy nyelvi modellek fölhasználása az automatikus álhírfelismerési feladatban |
9.35–10.00 | Ficsor Tamás: Topikorientált adatgyűjtés és feldolgozás |
10.00–10.25 | Szécsényi Tibor, Virág Nándor: Automatikus felszólításannotálás nagy nyelvi modellel |
![]() |
|
10.25–10.40 | Szünet |
2. szekció, levezető elnök: Csatár Péter | |
10.40–11.05 | Rákosi Csilla: A pragmatika szerepe az áltudomány definiálásában, avagy definiálható-e az áltudomány fogalma a nyelvészeti pragmatika eszközeivel |
11.05–11.30 | Németh T. Enikő, Nagy C. Katalin és Németh Zsuzsanna: Implicit pragmatikai jelenségek korpusz-alapú összehasonlító elemzése egészségügyi témájú valódi hírek és álhírek címeiben |
11.30–11.55 | Bibok Károly: A fokozás fajtái egészségügyi álhírekben és valódi hírekben |
![]() |
|
11.55–13.30 | Ebéd |
3. szekció, levezető elnök: Németh Zsuzsanna | |
13.30–13.55 | Bozsik Tamara, Németh T. Enikő: Verbális agresszió az egészségügyi álhírekben? – Egy esettanulmány tanulságai |
13.55–14.20 | Kovács Pál: A szándékoltság pragmatikai megközelítése szövegszervező elemek vizsgálatával álhírekben |
14.20–14.45 | Szabó Éva: Idézés az áltudományos szövegekben a MedCollect korpusz alapján |
![]() |
|
14.45–15.00 | Szünet |
4. szekció, levezető elnök: Németh T. Enikő | |
15.00–15.25 | Nagy C. Katalin, Virág Nándor, Karai Bence: Indirekt direktívák annotálása a MedCollect korpuszban |
15.25–15.50 | Gencsi Mihály: Nagy nyelvi modellek generált szövegeinek vizsgálata az álhírfelismerési feladatban |
15.50–16.15 | Vörös Richárd: Az álhírdetektáló böngésző bővítmény és Android alkalmazás fejlődése és működése |
![]() |
|
16.15 | Zárszó: Németh T. Enikő |
Előadásunkban röviden bemutatjuk a nagy nyelvi modellek működését és azok limitációit. Ezt követően szót ejtünk a modellek generatív képességeinek az álhírek azonosításában történő alkalmazásáról. Az előadás során végezetül ismertetjük az egészségügyi témában létrehozott MedCollect álhírkorpuszon a nagy nyelvi modellek segítségével kapott első eredményeinket.
Az interneten hatalmas mennyiségű információ áll rendelkezésünkre, azonban ezen tartalmak nagyrészt kategorizálatlanul fellelhetőek. Számos feladat megoldásához viszont elkerülhetetlen, hogy a tartalomról valamilyen információval előre rendelkezzünk. A dokumentumok automatikus kategorizálása ennél fogva egy fontos előszűrési lépésnek tekinthető bármely feladat megoldásához. A rengeteg lehetséges kategória közül elsősorban az orvosi és gyógyszerészeti tematikájú szövegek felügyelet nélküli felfedezésére és azonosítására teszünk kisérletet.
A MedCollect korpusz feldolgozása során korábban a felszólító alakok különböző funkcióinak azonosítása történt kézi annotálással. A funkciók azonosításánál nemcsak az alakok közvetlen környezetét kellett figyelembe venni, hanem a tágabb kontextust is. Emiatt az annotálási folyamat hosszú ideig tartott és nagy szakértelmet igényelt.
Ahhoz, hogy a kézi annotálás eredményeit felhasználhassuk egy automatikus álhírdetektáló eszközben, arra van szükség, hogy ezeket a jellemzőket új, ismeretlen szövegen is azonosítani lehessen. Ezért a felszólításannotálás automatizálásával kapcsolatban gépi tanulási kísérleteket végeztünk. A kísérletek arra vonatkoztak, hogy mekkora kontextus szükséges egy automatikus annotáló eszköz hatékony működéséhez. A kísérletek során az annotált korpusz 128, 256 és 512 token hosszúságú szegmentumaival finomhangoltuk a használt huBert nagy nyelvi modellt. A
kísérletek eredményeként a direktívák típusaival kapcsolatban a kézi annotátorok hatékonyságával összevethető eszközt készítettünk.
A legjobban teljesítő modell esetében azt is megvizsgáltuk, hogy az adott nagyságú kontextusok különböző részeiben (eleje, közepe, vége) eltérő volt-e a modell pontossága. A vizsgálat kimutatta, hogy a bal oldali kontextus jobban befolyásolta az annotálás hatékonyságát.
Az 'áltudomány' fogalmát többen is megkísérelték a 'bullshit' fogalma segítségével definiálni (Ladyman 2013, Moberger 2020), a 'bullshit' fogalmát pedig néhányan pragmatikai eszközök alkalmazásával értelmezték (Fallis 2009, Dynel 2011, Meibauer 2016). Az előadásomban azt a kérdést szeretném körbejárni, hogy vajon az áltudomány definiálásánál is alkalmazhatók/alkalmazandók-e a nyelvészeti pragmatika (beszédaktus-elmélet, társalgási implikatúrák) eszközei.
A kattintásvadászat hírcímek terjedése utat nyithat a manipulatív tartalmak terjedésének. Jóllehet a szakirodalom eddig a jelenséghez köthető explicit nyelvi szközöket vizsgálta, a
clickbaitcímek nagy része az implicitség nyelvi eszközeivel is manipulál. Előadásunkban három rejtett jelenség (implicit argumentumok, rejtett tartalmak a beszédaktusokban és implikatúrák) kvalitatív és kvantitatív összehasonlító elemzését végezzük el 600-600 db valódi- és álhírcímben az egészségügyi híreket tartalmazó MedCollect korpuszon.
Konklúziónk, hogy az implicitség az álhírekben gyakrabban szolgál mögöttes manipulatív célokat (pszichológiai hatások keltése, kattintásvadászat), az implicit argumentumok, a várható tartalom szempontjából nem releváns információk és a társalgási implikatúrák gyakoribb alkalmazásával. Ezzel szemben a valódi hírek címei szerkezetileg egyszerűbbek, információtartalmuk relevánsabb és az implicitség általában a cím elvárható tömörsége, összefoglaló funkciója miatt jelenik meg.
A MedCollect korpusz további annotálásának, valamint az egészségügyi álhírek és valódi hírek összehasonlíthatóságának keretében a fokozás három típusa különböztethető meg. A hagyományos morfológiai fokjelen, valamint a fok- és mértékhatározón túl bevezetjük a lexikai fokozás fogalmát. A lexikailag nem fokozott szavakon túl lexikailag fokozott elemek is részt vehetnek a fokjeles szóalakokban, valamint a fok- és mértékhatározós szószerkezetekben (akár determinánsként, akár alaptagként).
Az álhírekben a dezinformáció és a nem szándékos félretájékoztatás gyakran megjelenő elemek, melyek kéz a kézben járnak a gyűlöletbeszéddel. A gyűlöletbeszéd, mely a verbális agresszió egyik megnyilvánulási formája, megjelenik az egészségügyi álhírekben is. Hogyan ismerhető fel a gyűlöletbeszéd az álhírekben?
Az előadás arra tesz kísérletet, hogy korpuszmódszerekkel és a pragmatika fogalomkészletével azonosítson szövegszervező lexémákat, amelyek segítségével megragadható a közlői szándék az álhírekben. Ezt az előadás a valójában lexéma elemzésén keresztül járja körül, amely szövegszervező funkciója mellett olyan pragmatikai mechanizmusokra is enged következtetni, amelyek túlmutatnak a szöveg felszíni struktúráján, és számot adhatnak a közlői szándékról is. Javaslatot teszek a lexéma együttes előfordulási konfigurációinak lehetséges kategorizálására, amely minden esetben megköveteli a szövegszintű kontextus figyelembevételét is. Az álhírkorpusz találatai alapján kifejtem: a (i) de + valójában együttes előfordulásának konfigurációja, a (ii) mi + valójában? idiomatikus konfiguráció, és a (iii) nyomatékosító valójában típusának pragmatikai működésmódját. Az egyes altípusok sajátosságai mellett rámutatok arra is, hogy létezik egy magfunkció, amely a valójában lexéma használata esetében állandó: háttérfelvetések mozgósításával létrehoz egy logikai sémát, amely tagadott és preferált kijelentések halmazaiba tagolja a szöveg kifejtett és kifejtetlen tartalmait. Ez a funkció teszi fontos szövegszervező elemmé a lexémát, amely az álhírek szövegtípusában sematikusan működik.
Az álhírek egyik típusának tekinthető áltudományos szövegek a tudományosság látszatát keltik, mivel tudományos módszereket, terminusokat alkalmaznak, egyúttal forrásmegjelölés és idézés is felfedezhetők bennük, melyek fokozhatják meggyőző erejüket. Az előadás a MedCollect korpusz 900, áltudományosnak tekinthető szövegét vizsgálja az idézési módok szempontjából, melynek fókuszában az összetett jelenetként megkonstruált, a mond és az állít idéző igéket tartalmazó idézések állnak (vö. Csontos 2023).
A közvetlen direktívák annotálásának kiegészítéseként a felszólítások indirekt formáinak annotálását tűztük ki célul a MedCollect egészségügyi (álhír)korpusz szövegeiben. Egyes megnyilatkozásokban a felszólító funkció köthető valamely nyelvi elemhez (konvencionálisan indirekt direktívák), míg másokban nem (nem konvencionálisan indirekt direktívák). Amennyiben van olyan nyelvi szerkezet, amelyhez konvencionálisan köthető ez a funkció, akkor azt is megjelöltük. Ez utóbbi cél elősegítésére az annotálásra előkészített szövegben meg lettek jelölve a potenciálisan direktív funkciójú nyelvi egységek. Az előadásban bemutatjuk az annotálás menetét, a kategóriákat, végül az eredményeinket értelmezve összehasonlítjuk az indirekt direktívák használatát korpuszunk álhíreiben és valódi híreiben.
A Generatív Nagy Nyelvi Modellek lehetőséget biztosítottak a szövegek alaposabb elemzésére, ezáltal alkalmazhatóvá váltak az álhírek felismerésében is. Egy jól megfogalmazott kérdés segítségével szélesebb körű információkhoz juthatunk az elemzett szövegekről. Jelen előadásban arra helyezzük a hangsúlyt, hogyan hasznosíthatjuk a Generatív Nagy Nyelvi Modellek eredményeit a jelenlegi megoldásokban.
![]() |
6722 Szeged, Egyetem utca 2. |
![]() |
enyik@szte.hu |
MTA-SZTE-DE Elméleti Nyelvészeti és Informatikai Kutatócsoport
MTA Tudomány a Magyar Nyelvért Nemzeti Program
Álhírek, áltudományos nézetek nyelvészeti azonosítása alprogram
Szegedi Tudományegyetem
Bölcsészet- és Társadalomtudományi Kar
Általános Nyelvészeti Tanszék