TI/Sztuczna Inteligencja: Różnice pomiędzy wersjami

Z Brain-wiki
 
(Nie pokazano 63 pośrednich wersji utworzonych przez tego samego użytkownika)
Linia 1: Linia 1:
==[https://drive.google.com/file/d/16vgyKQO1loeaE_E0UmlGr_B5nsGhoEp_ Slajdy]==
+
==[["Technologia_informacyjna"|⬆]]  Historia==
 +
Choć "Sztuczna Inteligencja" (AI, SI<ref>Najczęstszym akronimem jest "AI", od "Artificial Intelligence". W języku polskim używamy czasem skrótu "SI", od "Sztuczna Inteligencja". W [https://www.youtube.com/watch?v=78YN1e8UXdM wywiadzie] z 2024 roku [https://pl.wikipedia.org/wiki/Juwal_Noach_Harari Juwal Noach Harari] sugeruje rozwinięcie akronimu AI jako "alien intelligence" dla podkreślenia, że systemy AI nie "myślą" tak, jak ludzie.</ref>. ) to termin niezwykle popularny w ostatnich latach, trudno jednoznacznie ustalić, czego tak naprawdę dotyczy.
 +
Powszechnie opisuje się pod tym [https://pl.wikipedia.org/wiki/Sztuczna_inteligencja hasłem] starsze i nowsze metody [[TI/Uczenie_maszynowe|uczenia maszynowego]], szczególnie za pomocą [[TI/Rozpoznawanie_znaków_(OCR)|sztucznych sieci neuronowych]], jednak samo stosowanie tych znanych od lat technik nie uzasadnia wprowadzania nowego terminu.
 +
Dlatego powstał też termin "silna (lub ogólna) sztuczna inteligencja" (ang. ''strong AI'' lub ''artificial general intelligence'', AGI), odnoszący się do własności systemów, które według niektórych prognoz miałyby powstać już w niedalekiej przyszłości.
 +
Według firmy [https://openai.com/charter/ OpenAI], AGI to ''wysoce autonomiczny system, który przewyższa ludzi w większości (najbardziej) wartościowych ekonomicznie prac''. Według [https://arxiv.org/pdf/2303.12712 artykułu pracowników działu Microsoft Research], AGI to ''system wykazujący szerokie możliwości inteligencji, w tym rozumowanie, planowanie, oraz zdolność uczenia się na podstawie doświadczenia, posiadający te możliwości na poziomie ludzkim lub wyższym''.
  
 +
Ostatnią eksplozję zainteresowania "sztuczną inteligencją" spowodowało udostępnienie przez kilka wielkich firm [https://pl.wikipedia.org/wiki/Du%C5%BCy_model_j%C4%99zykowy dużych modeli językowych] (ang. Large Language Models, LLM), choć wydaje się, że na razie są one dość dalekie od poziomu AGI.
  
==Historia==
+
Warto wspomnieć, że pierwsze programy komputerowe prowadzące konwersacje w języku naturalnym powstawały już ponad pół wieku temu. Najbardziej rozpoznawalnym do dzisiaj jest ELIZA (nazwa nawiązuje do sztuki [https://pl.wikipedia.org/wiki/Pigmalion_(dramat_George%E2%80%99a_Bernarda_Shawa) Pygmalion]), opisana w [https://dl.acm.org/doi/10.1145/365153.365168 artykule z 1966 roku] — z wersją zbliżoną do oryginału można porozmawiać (po angielsku) np. [https://anthay.github.io/eliza.html tutaj].
Choć "Sztuczna Inteligencja" to termin niezwykle popularny w ostatnich latach, trudno jednoznacznie ustalić, czego tak naprawdę dotyczy.  
 
Powszechnie opisuje się pod tym [https://pl.wikipedia.org/wiki/Sztuczna_inteligencja hasłem] starsze i nowsze metody [[TI/Uczenie_maszynowe|uczenia maszynowego]], szczególnie za pomocą [[TI/Rozpoznawanie_znaków_(OCR)|sztucznych sieci neuronowych]], jednak stosowanie tych znanych od lat technik nie uzasadnia wprowadzania nowego terminu.
 
Dlatego powstał też termin "silna (lub "ogólna") sztuczna inteligencja" (ang. ''strong AI'' lub ''artificial general intelligence'', AGI).
 
 
 
Eksplozję zainteresowania "sztuczną inteligencją" spowodowało udostępnienie przez kilka wielkich firm [https://pl.wikipedia.org/wiki/Du%C5%BCy_model_j%C4%99zykowy dużych modeli językowych] (ang. Large Language Models, LLM), choć wydaje się, że na razie nie osiągnęły one jeszcze poziomu AGI.
 
  
 
Boom na głębokie sieci neuronowe zapoczątkowała sieć [https://en.wikipedia.org/wiki/AlexNet AlexNet], która w roku 2012 uzyskała wyniki znacznie przewyższające wszystkie dotychczasowe podejścia z zakresu rozpoznawania obrazów (ang. computer vision). Metodologia używana w uczeniu tej sieci sama w sobie nie była rewolucyjna; przełom spowodowały przede wszystkim dwa czynniki:
 
Boom na głębokie sieci neuronowe zapoczątkowała sieć [https://en.wikipedia.org/wiki/AlexNet AlexNet], która w roku 2012 uzyskała wyniki znacznie przewyższające wszystkie dotychczasowe podejścia z zakresu rozpoznawania obrazów (ang. computer vision). Metodologia używana w uczeniu tej sieci sama w sobie nie była rewolucyjna; przełom spowodowały przede wszystkim dwa czynniki:
# Dostępność (w [[TI/Internet_od_%C5%9Brodka|Internecie]]) ogromnej ilości zdjęć, na podstawie których prof. [https://en.wikipedia.org/wiki/Fei-Fei_Li Fei Fei Li] doprowadziła do powstania ogromnej bazy danych obrazów z oznaczeniami — [https://en.wikipedia.org/wiki/ImageNet ImageNet]. Sieci neuronowe uczone na mniejszej ilości danych nie dawały tak dobrych rezultatów.
+
# Dostępność (w [[TI/Internet_od_%C5%9Brodka|Internecie]]) ogromnej ilości zdjęć, na podstawie których prof. [https://en.wikipedia.org/wiki/Fei-Fei_Li Fei Fei Li] doprowadziła do powstania ogromnego zbioru obrazów '''z oznaczeniami treści''', nadającego się do uczenia nadzorowanego — [https://en.wikipedia.org/wiki/ImageNet ImageNet]. Sieci neuronowe uczone na mniejszej ilości danych nie dawały tak dobrych rezultatów.
 
# Dostępność ogromnych mocy obliczeniowych, w szczególności specjalizowanych procesorów do obliczeń graficznych (graphical processing units, GPU), których wbudowana równoległość dramatycznie przyspieszyły proces uczenia sieci.
 
# Dostępność ogromnych mocy obliczeniowych, w szczególności specjalizowanych procesorów do obliczeń graficznych (graphical processing units, GPU), których wbudowana równoległość dramatycznie przyspieszyły proces uczenia sieci.
 +
 +
==EU Artificial Intelligence Act==
 +
13 marca 2024 roku Parlament Europejski przyjął rozporządzenie, którego treść w języku angielski dostępna jest pod tym adresem: https://artificialintelligenceact.eu/. Reguluje ono zasady stosowania technik sztucznej inteligencji. Zagrożenia podzielono na nieakceptowalne, oraz: wysokiego, mniejszego, i minimalnego ryzyka.
 +
 +
===Definicja===
 +
https://artificialintelligenceact.eu/article/3/ — w luźnym tłumaczeniu:
 +
<blockquote>
 +
System SI oznacza oparty na maszynie system stworzony do działania na różnych poziomach autonomii, który może wykazywać adaptację po wdrożeniu, i który — dla konkretnie sformułowanych lub domyślnych celów — wnioskuje na podstawie otrzymanego wejścia jak generować wyjście, takie jak przewidywania, treści, rekomendacje lub decyzje, które mogą wpływać na fizyczne lub wirtualne otoczenia.
 +
</blockquote>
 +
 +
  
 
==Główne cechy współczesnych systemów AI/LLM==
 
==Główne cechy współczesnych systemów AI/LLM==
Jak pokazywaliśmy w poprzednich rozdziałach o [[TI/Uczenie_maszynowe|uczeniu maszynowym]] i [[TI/Rozpoznawanie_znak%C3%B3w_(OCR)|sztucznych sieciach neuronowych]], choć sam proces uczenia sieci oraz działanie gotowych systemów jest realizowane w postaci programów komputerowych, to konkretne wartości parametrów decydujących o działaniu systemu (głównie wagi połączeń nauczonej sieci) ustalane są przez algorytm na podstawie danych uczących. Taki system nie realizuje więc bezpośrednio zaprojektowanego przez człowieka [[TI/Algorytm|algorytmu]] — jest optymalizowany dla zwracania odpowiedzi najlepiej odpowiadających zawartości zbiorów uczących. Liczby parametrów współczesnych modeli przekraczają 10<sup>9</sup>, a liczba przykładów, na których są trenowane, 10<sup>13</sup>. Nie potrafimy interpretować znaczenia tych parametrów, ani też kontrolować jakości zbiorów uczących.
+
Jak pokazywaliśmy w poprzednich rozdziałach o [[TI/Uczenie_maszynowe|uczeniu maszynowym]] i [[TI/Rozpoznawanie_znak%C3%B3w_(OCR)|sztucznych sieciach neuronowych]], choć sam proces uczenia sieci oraz działanie gotowych systemów jest realizowane w postaci programów komputerowych, to konkretne wartości parametrów decydujących o działaniu systemu (głównie wagi połączeń nauczonej sieci) ustalane są przez algorytm na podstawie danych uczących. Taki system nie realizuje więc bezpośrednio zaprojektowanego przez człowieka [[TI/Algorytm|algorytmu]] — jest optymalizowany dla zwracania odpowiedzi najlepiej odpowiadających zawartości zbiorów uczących. Liczby parametrów współczesnych modeli przekraczają znacznie 10<sup>9</sup>, a liczba przykładów, na których są trenowane 10<sup>13</sup>. Obie liczby wciąż rosną. Nie potrafimy interpretować znaczenia tych parametrów, ani też kontrolować jakości zbiorów uczących.
 +
 
 +
 
 +
 
 +
==Transformatory (transformery)==
 +
* Artykuł [https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf Attention is all you need], w którym po raz pierwszy (w roku 2017) opisano architekturę transformerów.
 +
* Interaktywny [https://poloclub.github.io/transformer-explainer/ Transformer explainer] z artykułu [https://arxiv.org/abs/2408.04619 Transformer Explainer: Interactive Learning of Text-Generative Models].
 +
 
 +
 
  
 
==Niektóre problemy==
 
==Niektóre problemy==
* Jakość LLM, mierzona "błyskotliwością i trafnością" (na razie nie wszystkich) odpowiedzi, zależy dramatycznie od rozmiaru zbiorów uczących. Wszystkie dostępne legalnie zasoby w postaci encyklopedii i archiwów zostały już wykorzystane, największe firmy prześcigują się w powiększaniu zbiorów uczących o (najprawdopodobniej) nielegalnie pozyskiwane treści. Na przykład, jeśli w zbiorze uczącym znajdzie się pełna treść artykułu odpowiadającego na jakieś pytania, to w odpowiedzi na właściwie sformułowane zapytanie LLM może "przekopiować" znaczące części artykułu — jak opisano np. w publikacji [https://arxiv.org/pdf/2310.13771 Copyright Violations and Large Language Models].
+
* W odróżnieniu od [[TI/Bazy_danych|wyszukiwarek internetowych]], systemy AI/LLM nie podają zwykle faktycznych źródeł generowanych odpowiedzi i informacji, za to czasem podają źródła nieistniejące.
* Uczenie LLM pochłania ogrome ilości energii, porównywalne już z zapotrzebowaniem na energię małych państw. Warto o tym pamiętać gdy mówimy, że "AI zatrzyma globalne ocieplenie" i "uratuje nas przed kryzysem klimatycznym" :-)
+
* LLM całą wiedzę czerpią wyłącznie ze zbiorów uczących, które coraz bardziej zbliżają się do "zawartości Internetu", więc powielają wyrażane np. w mediach społecznościowych teorie spiskowe, przesądy, bzdury i niesprawiedliwe opinie.
* Czasami LLM dają odpowiedzi bezsensowne lub fałszywe; określane jest to mianem "halucynacji AI", choć wydaje się, że właściwszym określeniem jes tu słowo "bzdury".
+
* Czasami LLM dają odpowiedzi bezsensowne lub fałszywe, określane mianem "halucynacji AI" — choć wydaje się, że właściwszym określeniem jes tu słowo "bzdury" (ang. ''bullshit''), jak zasugerowano w artykule [https://doi.org/10.1007/s10676-024-09775-5 ChatGPT is bullshit].
 +
* Jakość LLM, mierzona "błyskotliwością i trafnością" (nie wszystkich) odpowiedzi, zależy dramatycznie od rozmiaru zbiorów uczących. Wszystkie dostępne legalnie zasoby w postaci encyklopedii i archiwów zostały już wykorzystane, największe firmy prześcigają się w powiększaniu zbiorów uczących o (najprawdopodobniej) nielegalnie pozyskiwane treści. Na przykład, jeśli w zbiorze uczącym znajdzie się pełna treść artykułu odpowiadającego na jakieś pytania, to w odpowiedzi na właściwie sformułowane zapytanie LLM może "przekopiować" znaczące części artykułu — jak opisano np. w publikacji [https://arxiv.org/pdf/2310.13771 Copyright Violations and Large Language Models].
 +
* Uczenie LLM pochłania ogrome ilości energii, porównywalne już z zapotrzebowaniem na energię całych państw. Warto o tym pamiętać gdy mówimy, że "AI zatrzyma [https://naukaoklimacie.pl/ globalne ocieplenie] i uratuje nas przed kryzysem klimatycznym" :]
 
* Warto pamiętać, że, podobnie jak [https://pl.wiktionary.org/wiki/beauty_is_in_the_eye_of_the_beholder piękno jest w oku patrzącego], tak również "inteligencja" odpowiedzi generowanych przez LLM może być częściowo wynikiem wrodzonej ludziom tendencji do antropomorfizmu. Skrajne sformułowanie tych uwag można znaleźć m.in. w artykule [https://doi.org/10.1145%2F3442188.3445922 On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜].
 
* Warto pamiętać, że, podobnie jak [https://pl.wiktionary.org/wiki/beauty_is_in_the_eye_of_the_beholder piękno jest w oku patrzącego], tak również "inteligencja" odpowiedzi generowanych przez LLM może być częściowo wynikiem wrodzonej ludziom tendencji do antropomorfizmu. Skrajne sformułowanie tych uwag można znaleźć m.in. w artykule [https://doi.org/10.1145%2F3442188.3445922 On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜].
* LLM całą wiedzę czerpią wyłącznie ze zbiorów uczących, które coraz bardziej zbliżają się do "zawartości Internetu", więc powielają wszystkie wyrażane m.in. w mediach społecznościowych teorie spiskowe, przesądy, bzdury i niesprawiedliwe opinie.
+
* Choć często słyszymy, że AI np. "diagnozuje schorzenia", to LLM nie "myślą" tak, jak ludzie. Dowodem nie wprost jest istnienie tzw. ''one pixel attacks'' czyli "ataków jednego piksela", którego zmiana może totalnie odwrócić interpretację obrazu — na przykład stawianą na podstawie zdjęcia RTG diagnozę, jak opisano w artykule [https://doi.org/10.3390/cancers15174228 Adversarial Attacks on Medical Image Classification].
* Choć często słyszymy, że np. "AI diagnozuje schorzenia", to LLM nie "myślą" tak, jak ludzie. Dowodem przez przykład są tzw. ''one pixel attacks'' czyli "ataki jednego piksela", którego zmiana może totalnie odwrócić interpretację obrazu — na przykład stawianą na podstawie zdjęcia RTG diagnozę, jak opisano w artykule [https://doi.org/10.3390/cancers15174228 Adversarial Attacks on Medical Image Classification].
+
* Modele udostępniane przez największe firmy są zabezpieczane, aby uniemożliwić ich zastosowanie do "niewłaściwych" celów jak np. pisanie wirusów, generacja pornograficznych deepfakes czy planowanie zamachów. [https://jailbreaking-llms.github.io/ Jailbreaking] to inaczej obchodzenie tych zabezpieczeń, za pomocą specjalnie sformułowanych poleceń. Można to potraktować jako dziury w bezpieczeństwie, które są łatane, po czym pojawiają się nowe, ... Przykład obchodzenia zabezpieczeń pokazuje np. artykuł [https://doi.org/10.48550/arXiv.2311.00117 BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B]
 +
* Zaczyna brakować danych, na których można uczyć nowe modele:
 +
** Dead Internet theory https://theconversation.com/the-dead-internet-theory-makes-eerie-claims-about-an-ai-run-web-the-truth-is-more-sinister-229609
 +
** LLM powoli zaczynają uczyć się na treściach, które same generują https://arxiv.org/abs/2311.16822
 +
** model collapse https://theconversation.com/what-is-model-collapse-an-expert-explains-the-rumours-about-an-impending-ai-doom-236415
 +
 
 +
 
 +
<!--
 +
==Refleksje autora (bez referencji:)==
 +
Powszechne<ref>Nie chodzi tutaj o konkretne osiągnięcia modeli stosowanych w badaniach naukowych, jak np. [https://en.wikipedia.org/wiki/AlphaFold AlphaFold]</ref> uwielbienie AI w ostatnich latach wydaje się przede wszystkim konsekwencją wrodzonego ludziom lenistwa umysłowego: nie chcemy już nawet szukać właściwych źródeł w wyszukiwarce i czytać różnych opinii — chcemy dostać jedną, łatwą do zrozumienia, jednoznaczną odpowiedź, która zwolni nas od myślenia i rozwieje wszelkie wątpliwości. Zastąpienie własnych procesów myślowych pytaniami do LLM może się wydawać kuszące — czyż maszyny i komputery nie powstały po to, żeby uwalniać nas od męczących zadań? Zastanówmy się, w ramach akademickich dywagacji, do czego to może doprowadzić.
 +
 
 +
LLM ani inne systemy AI nie mają wbudowanych ani wyuczonych pojęć prawdy czy sprawiedliwości. Powielają i kojarzą — w coraz bardziej "kreatywny" sposób — informacje z gigantycznych zbiorów danych, których jakości nie jesteśmy w stanie skontrolować. Nie tylko ze względu na ich gigantyczne rozmiary, ale przede wszystkim dlatego, że największe firmy tworzące LLM (jak OpenAI, Google, Meta, Amazon, Apple czy Microsoft) nie ujawniają informacji o używanych zbiorach uczących — częściowo pewnie dlatego, że nie wszystkie dane uczące są pozyskiwane w sposób zgodnyz prawem. Aby bzdurne czy wręcz niebezpiecznie szkodliwe odpowiedzi nie pojawiały się zbyt często, firmy wprowadzają szereg zabezpieczeń, o których nic nie wiemy. W ten sposób firmy mogą regulować rodzaj i wydźwięk informacji, na której opieramy zasadnicze decyzje. To byłaby de facto władza nad umysłami (prawie) całej ludzkości — chyba największe marzenie megalomanów i tyranów.
 +
-->
 +
 
 +
== Slajdy==
 +
Slajdy z poprzednich wykładów o SI dostępne są w formacie [https://drive.google.com/file/d/16vgyKQO1loeaE_E0UmlGr_B5nsGhoEp_ PDF]
 +
 
 +
<hr/>
 +
<references/>
 +
 
 +
<table style="width:100%;background-color:#F7F7F7;border-collapse:collapse;" cellpadding="10" border="0">
 +
<tr>
 +
<td align="left"> [https://durka.info PJD] </td>
 +
<td align="right"> [[TI/Interfejsy_mózg-komputer|⬅]]  [["Technologia_informacyjna"|⬆]] </td>
 +
</tr>
 +
</table>

Aktualna wersja na dzień 08:05, 13 wrz 2024

Historia

Choć "Sztuczna Inteligencja" (AI, SI[1]. ) to termin niezwykle popularny w ostatnich latach, trudno jednoznacznie ustalić, czego tak naprawdę dotyczy. Powszechnie opisuje się pod tym hasłem starsze i nowsze metody uczenia maszynowego, szczególnie za pomocą sztucznych sieci neuronowych, jednak samo stosowanie tych znanych od lat technik nie uzasadnia wprowadzania nowego terminu. Dlatego powstał też termin "silna (lub ogólna) sztuczna inteligencja" (ang. strong AI lub artificial general intelligence, AGI), odnoszący się do własności systemów, które według niektórych prognoz miałyby powstać już w niedalekiej przyszłości. Według firmy OpenAI, AGI to wysoce autonomiczny system, który przewyższa ludzi w większości (najbardziej) wartościowych ekonomicznie prac. Według artykułu pracowników działu Microsoft Research, AGI to system wykazujący szerokie możliwości inteligencji, w tym rozumowanie, planowanie, oraz zdolność uczenia się na podstawie doświadczenia, posiadający te możliwości na poziomie ludzkim lub wyższym.

Ostatnią eksplozję zainteresowania "sztuczną inteligencją" spowodowało udostępnienie przez kilka wielkich firm dużych modeli językowych (ang. Large Language Models, LLM), choć wydaje się, że na razie są one dość dalekie od poziomu AGI.

Warto wspomnieć, że pierwsze programy komputerowe prowadzące konwersacje w języku naturalnym powstawały już ponad pół wieku temu. Najbardziej rozpoznawalnym do dzisiaj jest ELIZA (nazwa nawiązuje do sztuki Pygmalion), opisana w artykule z 1966 roku — z wersją zbliżoną do oryginału można porozmawiać (po angielsku) np. tutaj.

Boom na głębokie sieci neuronowe zapoczątkowała sieć AlexNet, która w roku 2012 uzyskała wyniki znacznie przewyższające wszystkie dotychczasowe podejścia z zakresu rozpoznawania obrazów (ang. computer vision). Metodologia używana w uczeniu tej sieci sama w sobie nie była rewolucyjna; przełom spowodowały przede wszystkim dwa czynniki:

  1. Dostępność (w Internecie) ogromnej ilości zdjęć, na podstawie których prof. Fei Fei Li doprowadziła do powstania ogromnego zbioru obrazów z oznaczeniami treści, nadającego się do uczenia nadzorowanego — ImageNet. Sieci neuronowe uczone na mniejszej ilości danych nie dawały tak dobrych rezultatów.
  2. Dostępność ogromnych mocy obliczeniowych, w szczególności specjalizowanych procesorów do obliczeń graficznych (graphical processing units, GPU), których wbudowana równoległość dramatycznie przyspieszyły proces uczenia sieci.

EU Artificial Intelligence Act

13 marca 2024 roku Parlament Europejski przyjął rozporządzenie, którego treść w języku angielski dostępna jest pod tym adresem: https://artificialintelligenceact.eu/. Reguluje ono zasady stosowania technik sztucznej inteligencji. Zagrożenia podzielono na nieakceptowalne, oraz: wysokiego, mniejszego, i minimalnego ryzyka.

Definicja

https://artificialintelligenceact.eu/article/3/ — w luźnym tłumaczeniu:

System SI oznacza oparty na maszynie system stworzony do działania na różnych poziomach autonomii, który może wykazywać adaptację po wdrożeniu, i który — dla konkretnie sformułowanych lub domyślnych celów — wnioskuje na podstawie otrzymanego wejścia jak generować wyjście, takie jak przewidywania, treści, rekomendacje lub decyzje, które mogą wpływać na fizyczne lub wirtualne otoczenia.


Główne cechy współczesnych systemów AI/LLM

Jak pokazywaliśmy w poprzednich rozdziałach o uczeniu maszynowym i sztucznych sieciach neuronowych, choć sam proces uczenia sieci oraz działanie gotowych systemów jest realizowane w postaci programów komputerowych, to konkretne wartości parametrów decydujących o działaniu systemu (głównie wagi połączeń nauczonej sieci) ustalane są przez algorytm na podstawie danych uczących. Taki system nie realizuje więc bezpośrednio zaprojektowanego przez człowieka algorytmu — jest optymalizowany dla zwracania odpowiedzi najlepiej odpowiadających zawartości zbiorów uczących. Liczby parametrów współczesnych modeli przekraczają znacznie 109, a liczba przykładów, na których są trenowane — 1013. Obie liczby wciąż rosną. Nie potrafimy interpretować znaczenia tych parametrów, ani też kontrolować jakości zbiorów uczących.


Transformatory (transformery)


Niektóre problemy

  • W odróżnieniu od wyszukiwarek internetowych, systemy AI/LLM nie podają zwykle faktycznych źródeł generowanych odpowiedzi i informacji, za to czasem podają źródła nieistniejące.
  • LLM całą wiedzę czerpią wyłącznie ze zbiorów uczących, które coraz bardziej zbliżają się do "zawartości Internetu", więc powielają wyrażane np. w mediach społecznościowych teorie spiskowe, przesądy, bzdury i niesprawiedliwe opinie.
  • Czasami LLM dają odpowiedzi bezsensowne lub fałszywe, określane mianem "halucynacji AI" — choć wydaje się, że właściwszym określeniem jes tu słowo "bzdury" (ang. bullshit), jak zasugerowano w artykule ChatGPT is bullshit.
  • Jakość LLM, mierzona "błyskotliwością i trafnością" (nie wszystkich) odpowiedzi, zależy dramatycznie od rozmiaru zbiorów uczących. Wszystkie dostępne legalnie zasoby w postaci encyklopedii i archiwów zostały już wykorzystane, największe firmy prześcigają się w powiększaniu zbiorów uczących o (najprawdopodobniej) nielegalnie pozyskiwane treści. Na przykład, jeśli w zbiorze uczącym znajdzie się pełna treść artykułu odpowiadającego na jakieś pytania, to w odpowiedzi na właściwie sformułowane zapytanie LLM może "przekopiować" znaczące części artykułu — jak opisano np. w publikacji Copyright Violations and Large Language Models.
  • Uczenie LLM pochłania ogrome ilości energii, porównywalne już z zapotrzebowaniem na energię całych państw. Warto o tym pamiętać gdy mówimy, że "AI zatrzyma globalne ocieplenie i uratuje nas przed kryzysem klimatycznym" :]
  • Warto pamiętać, że, podobnie jak piękno jest w oku patrzącego, tak również "inteligencja" odpowiedzi generowanych przez LLM może być częściowo wynikiem wrodzonej ludziom tendencji do antropomorfizmu. Skrajne sformułowanie tych uwag można znaleźć m.in. w artykule On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜.
  • Choć często słyszymy, że AI np. "diagnozuje schorzenia", to LLM nie "myślą" tak, jak ludzie. Dowodem nie wprost jest istnienie tzw. one pixel attacks czyli "ataków jednego piksela", którego zmiana może totalnie odwrócić interpretację obrazu — na przykład stawianą na podstawie zdjęcia RTG diagnozę, jak opisano w artykule Adversarial Attacks on Medical Image Classification.
  • Modele udostępniane przez największe firmy są zabezpieczane, aby uniemożliwić ich zastosowanie do "niewłaściwych" celów jak np. pisanie wirusów, generacja pornograficznych deepfakes czy planowanie zamachów. Jailbreaking to inaczej obchodzenie tych zabezpieczeń, za pomocą specjalnie sformułowanych poleceń. Można to potraktować jako dziury w bezpieczeństwie, które są łatane, po czym pojawiają się nowe, ... Przykład obchodzenia zabezpieczeń pokazuje np. artykuł BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B
  • Zaczyna brakować danych, na których można uczyć nowe modele:


Slajdy

Slajdy z poprzednich wykładów o SI dostępne są w formacie PDF


  1. Najczęstszym akronimem jest "AI", od "Artificial Intelligence". W języku polskim używamy czasem skrótu "SI", od "Sztuczna Inteligencja". W wywiadzie z 2024 roku Juwal Noach Harari sugeruje rozwinięcie akronimu AI jako "alien intelligence" dla podkreślenia, że systemy AI nie "myślą" tak, jak ludzie.
PJD