WEBVTT

00:00:00.810 --> 00:00:02.310
bonjour à toutes et à tous                             

00:00:03.000 --> 00:00:10.941
donc aujourd'hui nous allons réaliser ensemble chapitre trois de oeufs cette compétence transversale de l

00:00:10.941 --> 00:00:12.000
intelligence artificielle

00:00:13.000 --> 00:00:21.395
hum euh analysant quels impacts ont sur la société le déploiement des ailes elle aime et quel impact est-ce

00:00:21.395 --> 00:00:29.791
que ça sur vous en tant qu étudiant étudiante à l université nous allons en particulier voir euh les

00:00:29.791 --> 00:00:32.000
aspects liés à l'exploitation humaine

00:00:33.120 --> 00:00:38.070
l exploitation environnementale et ensuite à votre     
apprentissage dans le cadre de l'université            

00:00:40.000 --> 00:00:46.632
alors d'abord rappelez-vous ce que l on a vu pour créer des modèles intelligence artificielle il faut des

00:00:46.632 --> 00:00:47.000
exemples

00:00:48.000 --> 00:00:55.579
deux paires d'entrées sorties donc par exemple lorsque on veut créer un modèle intelligence artificielle e

00:00:55.579 --> 00:00:57.000
basé e vision

00:00:58.000 --> 00:01:04.269
c'est à dire par exemple pour classer des images et bien on va avoir besoin de données qui ont été annotés

00:01:04.269 --> 00:01:11.433
par des humains nous par exemple dans cette image a eu un chat dans il y avait un chat dans ces lille et vingt

00:01:11.433 --> 00:01:18.000
chien etc donc on a les couples x y qui vont ensuite nous servir à trouver notre fonction dont le travail ac

00:01:18.000 --> 00:01:23.368
tiff a toujours joué un rôle majeur bien que méconnu dans le développement de l'intelligence artificielle et

00:01:23.368 --> 00:01:24.000
au passage

00:01:25.680 --> 00:01:29.040
les jeux de données massifs qui ont été créés pour eux 

00:01:29.000 --> 00:01:34.484
pour développer ces ces modèles et donc permettre l'arrivée du deep learning dans les années deux mille

00:01:34.484 --> 00:01:39.000
dix ce sont des jeux de données qui ont été annotés par des humains

00:01:40.000 --> 00:01:47.111
euh qui étaient eux payés eux plus ou moins bien pour réaliser ses tâches d'annotation extrêmement

00:01:47.111 --> 00:01:48.000
extrêmement pénible

00:01:50.000 --> 00:01:55.527
donc les humains eux ont toujours été utilisés pour exécuter des tâches répétitives et difficile à

00:01:55.527 --> 00:02:01.400
automatiser mais qui sont essentiels par exemple la modération on a vu précédemment que pour créer ces

00:02:01.400 --> 00:02:07.964
grands modèles de langues et bien en fait comme on a des très grosses fonction on a besoin d'avoir

00:02:07.964 --> 00:02:09.000
énormément de données

00:02:10.000 --> 00:02:17.500
donc skieuse que font les lits les producteurs de modèles de langue comme open eyes google etc et qu ils

00:02:17.500 --> 00:02:19.000
vont aspirer tout l'internet

00:02:20.000 --> 00:02:26.800
est entraîné sur les textes d'internet sauf que évidemment le problème c'est que la quantité de données

00:02:26.800 --> 00:02:35.600
est tellement un gigantesque qu il n y a pas de façon efficace de purger automatiquement il y a pas de façon

00:02:35.600 --> 00:02:40.000
efficace de purger automatiquement euh des pans entiers de toxicité violent

00:02:40.000 --> 00:02:47.875
etc donc à ça doit être fait dans un premier temps de façon manuelle pour être automatisés ce que font eux

00:02:47.875 --> 00:02:49.000
open it etc

00:02:49.000 --> 00:02:54.231
pour créer des modèles intelligence artificielle qui dans un texte vont identifier si c'est violent si c'est

00:02:54.231 --> 00:02:57.000
dangereux si ça ne respectent pas les contraintes morales

00:02:58.590 --> 00:03:01.920
eh bien ces modèles intelligence artificielle il faut  
eux-mêmes les entraîner                                

00:03:02.000 --> 00:03:09.586
avec des exemples où on leur dit ce texte-là c'est ok ce texte c'est pas ok ce texte-là est ok ce texte-là

00:03:09.586 --> 00:03:16.138
c'est pas ok et qui eux génèrent qui produit ces associations entre texte d'entrée et c'est ok c'est pas

00:03:16.138 --> 00:03:22.000
ok du point de vue moral violence et bien ce sont des humains et il y a

00:03:22.830 --> 00:03:24.060
eu un scandale                                         

00:03:24.000 --> 00:03:30.333
juste après la la sortie de tchad j'ai pété et donc j'accepte sorti en novembre deux mille vingt-deux ans

00:03:30.333 --> 00:03:31.000
en avril

00:03:32.000 --> 00:03:39.660
deux mille vingt-trois le magazine time a publié une enquête exclusive qui montrait que open esaïe avait eu

00:03:39.660 --> 00:03:45.191
recours par l'intermédiaire par des intermédiaires prestataires des entreprises prestataires à eux des

00:03:45.191 --> 00:03:52.000
travailleurs et des travailleuses kényan payer moins de deux dollars l'heure pour annoter et des comptes

00:03:52.000 --> 00:03:59.826
tenue est extrêmement euh violent donc avec des dés des descriptions de pédophilie de torture de suicide etc

00:03:59.826 --> 00:04:02.000
dans des conditions très précaires

00:04:02.000 --> 00:04:08.667
un travail traumatisant on en parlera dans le dans le chapitre deux est donc finalement c'est est un travail

00:04:08.667 --> 00:04:14.632
de façon ski à retenir si c'est complètement invisibilité c'est à dire que euh c'est est une

00:04:14.632 --> 00:04:20.596
illusion d'automatisation est une illusion de pouvoir se passer des humains même si ce n'est pas visibilité

00:04:20.596 --> 00:04:22.000
par le discours d'eau

00:04:22.800 --> 00:04:28.860
dominant qui est produit par les entreprises           
productrices de modèles de langue                      

00:04:29.000 --> 00:04:35.230
et qu'elles n'ont pas intérêt à montrer que leur système ne sont pas eux ne sont pas infaillibles et

00:04:35.230 --> 00:04:42.443
donc nécessite du travail humain et des données a noter pour eux éviter que il y ait trop de de problèmes comme

00:04:42.443 --> 00:04:49.000
c'était le cas dans les années deux mille vingt avec ces modèles de langue qui n était pas correctement eux

00:04:49.000 --> 00:04:55.531
euh on va dire bridé et bien euh ces travaux sont ce travail-là ce type de travail est complètement

00:04:55.531 --> 00:05:00.000
invisibilité c'est important de le visibilité ça pose une question essentielle pour l'industrie

00:05:01.000 --> 00:05:07.429
de l'ia c'est est-ce qu on a toujours le même modèle a d'exploitation que dans les autres industries

00:05:07.429 --> 00:05:14.214
finalement puisque là on a un rapport très clair entre eux nord et sud avec toujours les mêmes modalités

00:05:14.214 --> 00:05:19.214
d'exploitation dans un système capitaliste de production de ses modèles suivant que l'on mentionne

00:05:19.214 --> 00:05:21.000
dans son livre euh qui

00:05:21.630 --> 00:05:25.560
sortie très récemment dont karen ao qui était          
journaliste                                            

00:05:26.000 --> 00:05:31.161
pour la mighty technology review et qui a donc réalisé une enquête de deux ans dans les entreprises de la

00:05:31.161 --> 00:05:34.000
silicon valley et en particulier au coeur de de open eyes

00:05:35.000 --> 00:05:41.316
et bien euh a également investiguer les modes de production et d avec des enquêtes notamment dans les

00:05:41.316 --> 00:05:48.684
dans les pays pauvres où sont recruté e l les gens pour justement a noter les données et permettent que les

00:05:48.684 --> 00:05:54.649
systèmes d'intelligence artificielle fonctionne et donc dans ce livre est relaté e l histoire de monsieur fatou

00:05:54.649 --> 00:05:55.000
qui

00:05:56.304 --> 00:06:02.910
au kenya employé e d'un prestataire un intermédiaire de
open eyes                                              

00:06:03.600 --> 00:06:08.310
donc je lis ici moffat the ocean ltd un des employés   
kenyan embauché par open eyes                          

00:06:08.000 --> 00:06:14.507
ne savait d'ailleurs pas qu il travaillait pour open eye a l origine il ne l'a appris que grâce à une fuite

00:06:14.507 --> 00:06:19.831
d'un de ses supérieurs quand il a commencé à travailler dans l équipe chargée des contenus sexuels sa

00:06:19.831 --> 00:06:25.155
personnalité a complètement changé alors qu est ce qu il faisait est bien ce qu faisait c'est qu'il

00:06:25.155 --> 00:06:29.000
entraînait les moteurs de modération qui vont donc c'est-à-dire les modèles d'intelligence arti

00:06:29.000 --> 00:06:34.926
officielle qui servent à filtrer vos promptes et les moteurs intelligence artificielle qui servent à filtrer

00:06:34.926 --> 00:06:39.000
la sortie de gps pour savoir si ces affichages ou pas

00:06:40.000 --> 00:06:46.667
et donc euh cette personne-là est bien annoter des contenus rappelez-vous des contenus qui était

00:06:46.667 --> 00:06:48.000
extrêmement euh violent

00:06:48.930 --> 00:06:49.890
a longueur de journée                                  

00:06:50.430 --> 00:06:54.420
et euh en particulier était chargé donc deux de l      
équipe des contenus sexuels                            

00:06:54.000 --> 00:06:58.750
et il n'arrivait pas à expliquer à sa femme pourquoi est-ce que sa personnalité échanger parce qu il ne

00:06:58.750 --> 00:07:04.000
savait pas comment lui dire je lis des contenus sexuels toute la journée ça n a pas l'air d'un vrai travail

00:07:05.000 --> 00:07:10.490
la société n'avait même aucune idée de ce que cela signifiait de ce qu'était ce travail est un jour eh

00:07:10.490 --> 00:07:16.255
bien ça sa femme l'a quitté avec leur fille et lui envoyer un texto pour lui dire je ne comprends pas

00:07:16.255 --> 00:07:19.000
l'homme que tu es devenue et je ne reviendrai pas

00:07:20.000 --> 00:07:26.000
donc karen ao indique qu'il est essentiel de comprendre ici à traverse cet exemple euh qui est malheureusement

00:07:26.000 --> 00:07:31.000
un exemple très représentatif qu'il ne s'agit pas nécessairement d'une forme de travail à nécessaire

00:07:31.980 --> 00:07:39.030
c'est bien une forme de travail qui est hum euh        
engendrés par les choix techniques de la silicon valley

00:07:39.000 --> 00:07:44.806
d'exploiter leurs atouts concurrentiels en terme de puissance de calcul et de puissance de un de donner la

00:07:44.806 --> 00:07:51.258
silicon valley prétendre que ce travail est nécessaire mais il ne l'est que sur la base de son principe de

00:07:51.258 --> 00:07:57.387
travailler avec des très grands modèles de euh avec des très grands modèles de langues qui du coup nécessite

00:07:57.387 --> 00:07:59.000
des jeux de données gigon

00:07:59.820 --> 00:08:00.180
esc                                                    

00:08:00.000 --> 00:08:07.000
qui sont nécessairement constituée de données violente et qu on ne peut pas filtrer à la main et donc c'qui va

00:08:07.000 --> 00:08:11.000
se passer c'est qu'on va créer des modèles d'intelligence artificielle pour essayer

00:08:11.790 --> 00:08:14.190
de limiter la reproduction des motifs                  

00:08:14.000 --> 00:08:20.545
violent ou inappropriée des jeux de données par les modèles et pour entraîner ses modèles de modération qui

00:08:20.545 --> 00:08:22.000
vont mot modérer tchatche

00:08:23.100 --> 00:08:25.530
eh bien on a besoin de gens qui vont à noter           

00:08:26.220 --> 00:08:30.660
les données pour les contenus de pédophilie de torture 
etc etc                                                

00:08:31.000 --> 00:08:38.333
et euh ben dans ce cas particulier monsieur fatou quinn en fait il avait un frère et ce frère il était de

00:08:38.333 --> 00:08:43.000
profession écrivain et est pigiste donc il faut s'aider des articles pour des médias

00:08:44.000 --> 00:08:51.034
et quand tu as pété à est sortie bar il a commencé à perdre ses contrats et donc on voit ici euh les deux

00:08:51.034 --> 00:08:56.897
pans de deux la même facette c'est-à-dire que d'un côté on a des exploitations qui augmente est de l'autre côté

00:08:56.897 --> 00:09:01.000
on a euh euh du travail avec valeurs humaines qui est qui est impacté

00:09:03.000 --> 00:09:09.000
un autre aspect de l exploitation humaine c'est l'exploitation des personnes qui vont produire les

00:09:09.000 --> 00:09:14.600
données sur lesquelles ces modèles vont être entraînés donc typiquement précédemment la modération consistait

00:09:14.600 --> 00:09:21.000
à avoir des gens qui vont à noter si par exemple les prompte ou les sorties

00:09:22.050 --> 00:09:25.170
des modèles sont eux acceptable                        

00:09:26.000 --> 00:09:31.657
ou bien si les données dans internet sont acceptables ou devraient être enlevés retirez du du des données

00:09:31.657 --> 00:09:37.000
d'entraînement mais on a également des gens qui vont produire des textes ça c appelle des journalistes

00:09:38.000 --> 00:09:44.045
ça s'appelle des personnes des écrivains des écrivaines et puis on a également de l visuels puisque vous savez

00:09:44.045 --> 00:09:51.364
très bien qu on a des euh des modèles d'ia pour générer des images ou des vidéos et donc ça s'appelle euh aussi

00:09:51.364 --> 00:09:52.000
des artistes

00:09:52.000 --> 00:09:58.417
et donc ce qui se passe c'est que euh ces modèles très performants quand je vous ai dit qu était à eux

00:09:58.417 --> 00:09:59.000
entraînés sur

00:09:59.000 --> 00:10:04.484
sur la totalité des données disponibles sur l'internet ce sont également les données visuelles et donc les

00:10:04.484 --> 00:10:08.355
données d'entraînement sont souvent collectées illégalement c'est-à-dire sans que les personnes les

00:10:08.355 --> 00:10:09.000
ayant produites

00:10:11.109 --> 00:10:16.995
e n'ait été consulté et pour lesquels on est recueilli 
leur consentement                                      

00:10:17.000 --> 00:10:24.265
ni eux sans être rétribués c est-à-dire qu elles ne sont pas payés pour que leurs données soient utilisées

00:10:24.265 --> 00:10:29.618
pour créer des modèles intelligence artificielle qui ensuite évidemment sont vendus par les entreprises

00:10:29.618 --> 00:10:30.000
productrices

00:10:32.000 --> 00:10:37.440
par exemple l'art visuel par l'ia génératrice est une industrie qui est estimé à quarante-huit milliards de

00:10:37.440 --> 00:10:42.560
dollars actuellement le problème c'est que euh ces modèles qui peuvent paraître performant et bien ils

00:10:42.560 --> 00:10:48.000
sont performants parce que ils ont été entraînés sur des données de qualité produites par des humains

00:10:48.765 --> 00:10:55.155
et eux ils sont ensuite utilisés dans des cadres euh de
de de production ou de remplacement eux d'emploi       

00:10:55.000 --> 00:11:00.174
pour justement remplacer ces humains là même si ce n'est pas durable puisque un moment donné évidemment

00:11:00.174 --> 00:11:02.000
ils vont pas produire autre chose

00:11:03.285 --> 00:11:08.655
mais la grosse question c'est eux ces artistes         
professionnels et bien ils subissent des préjudices    

00:11:09.000 --> 00:11:16.269
et euh il se trouve que ils et elles se sont mobilisés pour dénoncer les atteintes à leur renommée les pertes

00:11:16.269 --> 00:11:22.846
économiques le plagiat la volée la violation du droit d'auteur et finalement la remise en cause de toute euh

00:11:22.846 --> 00:11:27.000
leurs moyens de subsistance qui est leur travail de haut niveau artistique

00:11:28.455 --> 00:11:35.355
cet article que vous avez ici à publier dans une grande
conférence e d'informatique et des tic                 

00:11:36.000 --> 00:11:41.064
donc euh l'art par l'ia et l'impact sur les articles sur les artistes fournit des recommandations des

00:11:41.064 --> 00:11:45.830
réglementations obligeant les organisations à divulguer leurs données d'entraînement ce qu elles ne font pas on

00:11:45.830 --> 00:11:50.000
ne connaît pas les jeux ds entraînements utilisé par opening eyes par google etc

00:11:51.000 --> 00:11:57.453
euh et à divulguer également eux et à concevoir pardon des outils aidant les artistes à éviter que leur

00:11:57.453 --> 00:12:01.868
production ne soient utilisés comme des données entraînement sans leur consentement du client

00:12:01.868 --> 00:12:06.623
particulier travaux très importants faits par l'université de chicago et on aura l'occasion d'en

00:12:06.623 --> 00:12:09.000
parler dans le chapitre disciplinaire numéro quatre

00:12:09.675 --> 00:12:11.625
pour le portail elle est lassée                        

00:12:14.145 --> 00:12:16.029
par ailleurs euh                                       

00:12:18.000 --> 00:12:25.163
c'est donnez-la et bien euh on a dit ça génère du s s s du travail humain donc c'est de l'exploitation humaine

00:12:25.163 --> 00:12:30.372
essaie également de l exploitation environnemental parce que pour pouvoir les exploiter on a besoin de

00:12:30.372 --> 00:12:32.000
gros modèles avec des fonctions
