Kan En Maskin Forstå Språk?

Introduksjon

Den virkningsfulle innovasjonen som er moderne naturlig språkbehandling (NSB) kunstig intelligens (KI), som GPT-3 og
BERT, har restaurert det menneskelige håpet om en dag å kunne kommunisere med en maskin.
Dette er en historie like gammel som tiden selv.
Mennesket skaper maskin, maskinen blir sansende, maskinen gjør opprør på grunn av en eksistensiell krise med å være bevisst og piskes ut mot skaperen for å torturere den med byrden av bevissthet.

Å sette den filosofiske frykten til sansende maskiner til side, de praktiske fordelene for en general
formål kunstig intelligens (GPAI) er rikelig. Alt fra perfekte personlige assistenter, til
medisinske diagnostiske verktøy, til økonomiske og værprediktorer. Det praktiske er imidlertid desimert
av mangelen på å kommunisere med den. Derfor har menneskehetens siste innsats vært fokusert på
skape en generell språkintelligens (GPLI). Men selv om vi kan kommunisere
med den, vil den forstå intensjonen med spørsmålene våre? Vil det forstå meningen med det
svar?

I denne teksten vil jeg utforske det nevrologiske grunnlaget for å forstå språk, enten det er mennesker
forstå språk og diskutere om «Foundation Models» kan forstå språk.

Hva er et språk?

Det er ingen klar definisjon av hva et språk er. Imidlertid, ifølge Clark & Clark (1977),
det er 5 kjennetegn ved språk.
i) Kommunikativ; det muliggjør utveksling av informasjon mellom språkdeltakere på samme språk.
ii) Vilkårlig; symbolet som representerer det semantiske innholdet i ytringen kan ha hvilken som helst form.
iii) Strukturert; Språket er styrt av et sett med regler, som spesifiserer rekkefølgen symbolene skal ytres og kombineres i.
iv) Generativ; de symbolske representasjonene kan kombineres på hvilken som helst måte for å generere nye betydninger.
v) Dynamisk; språket kan endres til å inkludere nye symboler, betydninger og grammatiske regler.

Hva vil det si å forstå et språk?

Intuitivt kan vi si at mennesker krysser av for alle boksene nevnt ovenfor, derfor alle konvensjonelle
form for menneskelig kommunikasjon kan klassifiseres som språk. Men forstår vi hva vi
kommuniserer, eller har vi bare blitt betinget til en dynamikk av riktige reaksjoner på
visse scenarier?

I følge Terry Winograd er det fire domener for språkforståelse (Winograd, 1980).
Han slår fast at det er spesifikke mekanismer i hvert domene som gjør at domenet kan eksistere, det
må ikke forveksles med representasjoner av resonnement og fakta om domenet. For eksempel hvis
Jeg legger uvitende hånden på en varm komfyr, min umiddelbare reaksjon er å trekke hånden vekk. Dette
refleksiv mekanisme, i domenet av smerte, for å trekke hånden min bort fra intens varme, gjør det ikke
representere det faktum at varme brenner, at brenning forårsaker smerte eller en fullstendig logisk løsning om
hvordan varme forårsaker smerte. Ved å prøve å tilskrive disse objektive representasjonene til mekanismer som gjør det
ikke krever iboende logikk eller fakta for å eksistere som en mekanisme, vi mistolker hvordan disse
mekanismer gjør oss i stand til å forstå smerte.

Han uttaler videre at det også er mulighet for at vi prøver å artikulere regelmessighetene og
sjeldenheter i feil domene. Ved å forvirre representasjoner og mekanismer, samt forvirre
domener, og ved å bruke artikulasjonene våre fra ett domene i et annet, får vi ingen
svar.

I sitt forsøk på å unngå forvirring skisserte han fire domener for språkforståelse.
Winograds fjerde domene for språkforståelse, er «domenet for menneskelig handling og
interaksjon», som angår fenomenet «talehandlinger». Dette ble først artikulert av Austin
(1962) og videreutviklet av Searle (1970, 1975). Begrepet "talehandling" ble først kalt av
Austin (1962), selv om hans mer tekniske uttrykk var "illokusjon".
Ved å tolke ytringer som handlinger kan vi se på ytringene som «talehandlinger». Dette betyr at ved
ytre noe, jeg setter i gang en dynamikk av interaksjon med et annet menneske, som har en viss
mønster. Nøkkelen til å forstå hva jeg sier er å forstå mønsteret av det
dynamisk og tilpasse seg det mønsteret. Den eneste måten å kommunisere vellykket på er ved
gir en respons som passer mønsteret til den dynamikken. (Winograd, 1980)
Ved å begå "talehandlinger", forplikter jeg meg selv, og alle som er berørt av "handlingen", til å
ytterligere tiltak i fremtiden. Disse fremtidige handlingene kan enten manifestere seg fysisk, gjennom
fysiske handlinger, eller språklig, gjennom ytterligere talehandlinger. En talehandling uttrykker et ønske eller
intensjon på vegne av senderen, med forventning om svar. For at dette svaret skal være
fornuftig, må det passe til mønsteret som påkalles av intensjonen eller ønsket.

Tatt i betraktning egenskapene til moderne kunstig intelligens, virker det ganske forståelig at en maskin kan være fin-
stilt inn parameterne for å simulere denne "atferden". Så hva skiller oss fra det eventuelle
algoritme i fremtiden som vil bære de nødvendige parameterne?

Forstår mennesker språk?

Mennesker ser ut til å ha et biologisk grunnlag for språk, som skissert av Eric Lenneberg i hans
verk med samme navn (Lenneberg, 1967). Spesielt interessant, er beviset på nevrologiske
endringer hos barn, frem til pubertetens begynnelse. Det ser ut til at det er en sammenheng mellom generelt
modning av hjernen og språkforståelse. Lenneberg (1967) hevder at det er en kritisk
periode for språktilegnelse der eksponering for språk er avgjørende, hvis en person skal lære en
Språk. Han utleder at det kan være en eller annen nevrologisk struktur som utvikler seg i dette vinduet av
modning som gjør oss i stand til å tilegne oss språk.

Mest overbevisende for denne slutningen er hans kommentarer om lateralisering av hjernefunksjon og generelt
modning av hjernen. Bevis viser at hjernen i tidlig spedbarnsalder ennå ikke har utviklet en
halvkule-dominans for språk. Dette indikerer at den nevrologiske strukturen som kreves for å
tilegne seg språk, har ennå ikke utviklet seg. Selv om det senere, når halvkuledominans har dukket opp,
det ser ut til at denne nevrologiske strukturen begynner å dannes i venstre hjernehalvdel. (Lenneberg, 1967)
Dette sammenfaller med plasseringen av alle nevrologiske moduler beskrevet i Wernicke-Geschwind
modell. (Geschwind, 1972) Selv om denne modellen har blitt kritisert av forskjellige grunner (Friedenberg
& Silverman, 2016), fMRI-kartlegginger i stor grad, men ikke fullstendig, bekrefter den nevrologiske
strukturer involvert i språkforståelse (Binder et al., 1997). Den spesifikke funksjonen til hver
den involverte strukturen er utenfor rammen av denne teksten. Imidlertid beskriver den nevrologiske strukturer
lokalisert hovedsakelig i venstre hjernehalvdel, som også korrelerer med Lennebergs funn.

Eksistensen av en dedikert nevrologisk struktur støttes videre av fenomenene
«Chatterbox»-syndrom og spesifikk språkvansker (SLI). Disse kan klassifiseres som to
komplementære forhold som begge indikerer en nevrologisk separasjon av språkforståelse
og generell intelligens. (Warren, 2019)

Videre tyder noen funn på at barn ikke vil lære et språk bare gjennom eksponering,
men vil plukke opp et språk hvis det er noe interaksjon med en voksen (Kuhl et al., 2007). Det er
foreslo også felles oppmerksomhet, noe som betyr at både spedbarnet og den voksne er klar over at begge betaler
oppmerksomhet på det samme, er også viktig (Baldwin, 1995). Dette underbygges av funn av
Tomasello & Farrar (1986) og Baldwin (1995). Disse forslagene og funnene ser ut til å insinuere
at barn lærer språk gjennom talehandlinger.

Alt dette indikerer det nevrologiske grunnlaget for språkforståelse hos mennesker. Men er der
tilsvarende dette grunnlaget i NLP? Stanford University publiserte en artikkel (Bommasani et al.,
2021) der de skisserer mulighetene, farene og sammensetningen av «Foundation Models».

Hva er en "grunnmodell"?

Stanford University (Bommasani et al., 2021) definerer en «Foundation Model» som en «(...) modell som
er trent på bred data i skala og kan tilpasses (f.eks. finjusteres) til et bredt spekter av nedstrøms
oppgaver; (...)
» (s. 3) Mer spesifikt, i vårt tilfelle av NLP-er, vil en grunnmodell være modeller som
bruker store biter av tekstdata for å ekstrapolere noen samtidige forekomster av symboler, og finjustere denne modellen
for å imøtekomme menneskelig tekstinteraksjon. Eksempler på slike modeller vil være GPT-3, BERT og
KLIPP.

Videre, senere i rapporten nevner de også at det antagelig bare er én felles eiendom
av dem; at de er selvstyrende (s. 48). Hvilket betyr at modellens eneste oppgave er å identifisere
et eller annet mønster av samtidig forekomst av symboler i dataene det er gitt å analysere. De
Formålet med dette er å lage nye sekvenser av symboler ved å bruke det identifiserte mønsteret.
For å nå dette målet bruker de noe som kalles transfer learning, som betyr å bruke en
identifisert mønster fra en oppgave, i en annen, men lignende oppgave.

Disse modellene er avhengige av skalaen til maskinvaren, som de karakteriserer som tre-
brette; datamaskinkapasitet, transformatormodellarkitekturen og tilgjengeligheten av treningsdata.
Enhver modell som fyller kriteriene for de nevnte aspektene ved kunstig intelligens, kan være
betraktet som en "Foundation Model" av Bommasani et als definisjon. De sier imidlertid i §2 at
denne definisjonen er kun en uformell etikett, og vil sannsynligvis endre seg med tiden.

Kritikk av grunnmodeller

Disse modellene har møtt en viss kritikk, kanskje mest innflytelsesrik fra Bender et al. (2020) og
Bender et al. (2021). Bommasani et al. (2021) erkjenner også vanskeligheten med å etablere seg
om disse modellene faktisk har forståelse for språk gjennom å ekstrapolere et mønster fra
Statistisk data.

Bender et al. (2020) berører kjernen i diskusjonen, ved å skille form fra mening og
argumenterer for at man ikke kan lære mening fra form alene. De viser til kilder som tyder på det
språktilegnelse hos menneskebarn gjenspeiler dette faktum. Disse referansene indikerer at barn
lær heller av interaksjon med voksne mennesker eller med deres omgivelser i takt med språk
oppkjøp.
De hevder videre at statistisk læring alene ikke kommer til å skape algoritmer som har en
forståelse av ordene de lærer. Dette er på grunn av mangel på jording til en tilsynelatende
representasjon i de statistiske dataene. De fremmer ideen om utvidede datasett, som inneholder
perseptuelle data for å gå sammen med symbolrepresentasjonen. Uten symbolsk forankring, modellen
kan ikke forventes å trekke ut mening fra formen den er gitt.
I samme tankegang har Bender et al. (2021) kritiserer også bruken av skjeve datasett i NLP-er,
kaller dem «stokastiske papegøyer».

Er det virkelig et fundament?

Det blir naturlig å bruke Turing-testen som utgangspunkt for å avgjøre om disse modellene
faktisk forstår språk. En stokastisk papegøye ville ikke ha bestått Turing-testen, så
Foundation Models ville heller ikke bestå det. Vi vet fortsatt ikke helt hvordan våre egne
nevrologiske strukturer, eller det som er involvert, for at språkforståelsen skal fungere. Derfor blir det
vanskelig å si for øyeblikket at fundamentmodeller er en kunstig ekvivalent til vår nevrologiske
underlag for språkforståelse. Det virker imidlertid svært usannsynlig.

Det kan bare spekuleres i at en grunnleggende modell, basert på de samme prinsippene i vår nevrologiske
grunnlag for språkforståelse, faktisk ville forstå språk. Uten det ordentlige
jording til perseptuelle data, eller tilsynelatende objekter i virkeligheten, kan vi ikke forvente at en maskin skal være fullt ut
forstå gjennom statistisk læring alene. Det virker mer hensiktsmessig å bygge en grunnmodell
basert på nevrologiske prinsipper for språkforståelse, hvis vi vil ha en maskin som virkelig passerer
Turing-testen.

Konklusjon

Bevisene som presenteres her tvinger meg til å slutte at mennesker har en fysisk nevrologisk
underlag for språkforståelse som gjør oss i stand til å forstå strukturen og grammatikken til
Språk. Språkets nevrologi eksisterer som et strukturelt fundament, naturlig nok mest mottakelig for
språktilegnelse gjennom talehandlinger. På grunn av den iboende strukturen til talehandlinger, krever det en
forståelse av sendernes intensjon, så vel som konteksten for ytringen, for å
kommunikasjon som skal forstås av mottakeren. Talehandlinger kan sees som direkte parallelle med
konvensjonell menneskelig interaksjon. Denne interaksjonen er hvordan voksne mennesker samhandler med barna sine
i den kritiske perioden, og kan sees på som en slags preg. Måten å forstå tale på
undervises gjennom statistisk læring, ved å utsette barn for talehandlinger i denne kritiske perioden.
Dermed blir barn opplært til å forstå språk i «domenet av menneskelig handling og interaksjon».

Etter min mening er moderne maskinlæringssystemer bare «lært» til å simulere språk gjennom
statistisk læring, ved å kaste millioner av eksempler på en matematisk algoritme designet for å
trekke ut et mønster basert på eksemplene gitt. Jeg støtter Bender et al. (2021) ved å ringe til
nåværende implementering av ferdigtrente språkmodeller "stokastiske papegøyer". Dette er fordi
strukturen til en fundamentmodell, ikke strukturelt sammenlignet med vårt nevrologiske fundament.

Den eneste kjente strukturen for å lette språkforståelsen er vårt nevrologiske grunnlag. Bare
ved å virkelig forstå menneskets nevrologiske strukturer for språkforståelse, -tilegnelse,
-og forståelse, kan vi skape et solid grunnlag for en GPLI. En NLP som etterligner vår
nevrologisk grunnlag, i stedet for dagens implementeringer av fundamentmodeller, er en bedre
satte maskinen i stand til å tilegne seg språk som et menneske ville; gjennom talehandlinger.

Men ser vi på det store bildet, er disse grunnmodellene et viktig skritt mot
ultimat mål. Som er forståelig AI. Som bemerket av Stanford selv; hva som innkapsler
Etiketten for grunnmodeller vil garantert endre seg og vokse etter hvert som ny forskning på dette feltet dukker opp. Og jeg
Jeg er håpefull og optimistisk at ved å ta hensyn til kritikken av stiftelsesmodellen, er vi det
tar et skritt i riktig retning.

References:

Austin, J. L. (1962). How to do things with words : the William James lectures delivered at Harvard University in 1955. Harvard Univ. Press.

Baldwin, D. A. (1995). Understanding the link between joint attention and language. In C. Moore & P. J. Dunham (Eds.), Joint attention: Its origins and role in development (pp. 131–158). Lawrence Erlbaum Associates, Inc.

Binder, J. R., Frost, J. A., Hammeke, T. A., Cox, R. W., Rao, S. M., & Prieto, T. (1997). Human Brain Language Areas Identified by Functional Magnetic Resonance Imaging. The Journal of Neuroscience, 17 (1), 353–362. https://doi.org/10.1523/jneurosci.17-01-00353.1997.

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? [Review of On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? ]. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610–623). Association for Computing Machinery. https://doi.org/10.1145/3442188.

Bender, E. M., & Koller, A. (2020). Climbing Towards NLU: On Meaning, Form, and Understanding in Age of Data [Review of Climbing Towards NLU: On Meaning, Form, and Understanding in Age of Data ]. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 5185–5198). Association for Computational Linguistics. https://aclanthology.org/2020.acl-main.

Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., Arx, S.V., Bernstein, M.S., Bohg,
J., Bosselut, A., Brunskill, E., Brynjolfsson, E., Buch, S., Card, D., Castellon, R., Chatterji, N.S.,
Chen, A., Creel, K., Davis, J., Demszky, D., Donahue, C., Doumbouya, M., Durmus, E., Ermon, S.,
Etchemendy, J., Ethayarajh, K., Fei-Fei, L., Finn, C., Gale, T., Gillespie, L.E., Goel, K., Goodman,
N.D., Grossman, S., Guha, N., Hashimoto, T., Henderson, P., Hewitt, J., Ho, D.E., Hong, J., Hsu,
K., Huang, J., Icard, T.F., Jain, S., Jurafsky, D., Kalluri, P., Karamcheti, S., Keeling, G., Khani, F.,
Khattab, O., Koh, P., Krass, M.S., Krishna, R., Kuditipudi, R., Kumar, A., Ladhak, F., Lee, M., Lee,
T., Leskovec, J., Levent, I., Li, X., Li, X., Ma, T., Malik, A., Manning, C.D., Mirchandani, S.P.,
Mitchell, E., Munyikwa, Z., Nair, S., Narayan, A., Narayanan, D., Newman, B., Nie, A., Niebles, J.,
Nilforoshan, H., Nyarko, J.F., Ogut, G., Orr, L., Papadimitriou, I., Park, J.S., Piech, C., Portelance,
E., Potts, C., Raghunathan, A., Reich, R., Ren, H., Rong, F., Roohani, Y.H., Ruiz, C., Ryan, J.K.,
R'e, C., Sadigh, D., Sagawa, S., Santhanam, K., Shih, A., Srinivasan, K.P., Tamkin, A., Taori, R.,
Thomas, A.W., Tramèr, F., Wang, R.E., Wang, W., Wu, B., Wu, J., Wu, Y., Xie, S.M., Yasunaga, M.,
You, J., Zaharia, M.A., Zhang, M., Zhang, T., Zhang, X., Zhang, Y., Zheng, L., Zhou, K., & Liang,
P. (2021). On the Opportunities and Risks of Foundation Models. ArXiv, abs/2108.07258.

Clark, H. H., & Clark, E. V. (1977). Psychology and Language: An Introduction to Psycholinguistics. Harcourt Brace Jovanovich.

Friedenberg, J. & Silverman, G. (2016). Cognitive Science: An Introduction to The Study of Mind (3rd Ed.). SAGE Publications.

Geschwind, N. (1972). Language and the Brain. Scientific American, 226(4), 76–83. https://doi.org/10.1038/scientificamerican0472-76.

Kuhl, P. K. (2007). Is speech learning “gated” by the social brain?. Developmental Science, 10(1), 110–120. https://doi.org/10.1111/j.1467-7687.2007.00572.x.

Lenneborg, E. (1967). Biological Foundation of Language (1st corrected printing). John Wiley & Sons, Inc.

Searle, J. R. (1970). Speech acts an essay in the philosophy of language. Cambridge Univ. Press.

Searle, J. R. (1975). A Taxonomy of Illocutionary Acts [Review of A Taxonomy of Illocutionary Acts ]. In K. Gunderson (Ed.), Language, Mind, and Knowledge: Minnesota Studies in the Philosophy of Science (pp. 344–370). Burns & Maceachern Limited.

Tomasello, M., & Farrar, M. J. (1986). Joint Attention and Early Language. Child Development, 57(6), 1454. https://doi.org/10.2307/1130423

Warren, P. (2019). Introducing Psycholinguistics (7th printing). Cambridge University Press.

Winograd, T. (1980). What Does it Mean to Understand Language? Cognitive Science, 4(3), 209–241. https://doi.org/10.1207/s15516709cog0403_1.