Il y a beaucoup mieux. Il y a l'assistant vocal "Albert" de Gorgius, qui fonctionne totalement de façon autonome, sans aucune API et même sans connexion internet. J'ai la chance de pouvoir tester les nouvelles versions béta régulièrement. Actuellement dans sa version 5.8, Albert à sa propre IA local qui fonctionne sur des petits ordinateurs. Le projet est exactement ce que tu recherche en mieux à mon avis.
Son projet est fou, mais il ne le partage qu'à un petit groupe de personne, car son travail lui avait déjà été volé. La version d'aujourd'hui est géniale avec son nouvel IA .
Ca m'a motive a me faire le mien =D underscore ca motive a coder !D'ailleurs j'ai trouve une techo interessante Llama-index: tu peux linker ton backend chatgpt a des db SQL, NoSQL, requeter en langage naturel, construire des index pour des documents et construire ton chatbot base sur des connecteurs DB, files, cloud, parser web, github etc.. et c'est fastoch a utiliser
Ce qui serait nextlevel c'est que l'IA puisse comprendre quand on l'interrompt, qu'on ne soit pas obligé d'écouter tout le resultat + qu'elle comprenne quand on marque une pause parce qu'on cherche nos mots.
Deux petites améliorations simples pour un rendu un peu plus joli : - Une fois le premier bout d’audio reçu, regarder sa longueur (ce qui nous donne le temps dispo avant de devoir lire le deuxième) et en profiter pour passer des phrases plus longues au bot text2speech pour qu’il ait une meilleure intonation, - utiliser une voix qui parle plus vite ou accélérer un peu la lecture.
Tellement hâte que en plus, ce type d'assistant puisse se souvenir des conversations précédentes d'un utilisateur. Qu'il apprenne à la connaître. Se souvenir de ses besoins, hobby, événements de calendrier. Bref un vrai Jarvis quoi
C'est déjà le cas de chatgpt si tu gardes le même fil de discussion au lieu d'en lancer un nouveau. Donc si l'assistant est connecté à chatgpt, il suffit de garder la même session pour tous les appels à l'api
@@nothing2believe pour la v4 idem. Si conversation trop longue il ne se souvient plus. D'où je pensais faire une db dans laquelle il stockerait régulièrement des synthèses des conversations afin de pouvoir se "souvenir" plus facilement de choses anciennes ou à travers plusieurs conversations.
Des modèles comme GPT utilisent 4k tokens (env 3k mots) de contexte, donc au bout d'un moment ça se perd. De nouveaux travaux sont faits avec les modèles opensource, notamment les patches "superhot" pour étendre ces contextes à plus de 32k. Ils sont en fait un peu moins précis mais s'impreignent d'un contexte bien plus grand. Il n'en reste pas moins que le contexte est un faux problème, un humain en garde bien moins, il faudrait retravailler ces modèles sur des contextes de réflexion et de discussion distincts, et permettre enfin de mettre à jour l'état des connaissances pour apprendre de ces conversations (comme avec nous quand on dort). Aujourd'hui on triche avec le contexte mais ça ne pourra pas durer éternellement. C'est juste adapté à la production de code.
Pour "gagner du temps d'attente", ça pourrait être intéressant de détecter les attentes et de remplacer les silences par des tournures de phrases ou des onomatopées sélectionnées aléatoirement ^^ Style des "hmmm", "laisse-moi y réfléchir", "en même temps", "ah intéressant comme question !", etc. Un peu comme quand on a une discussion avec quelqu'un et qu'on comble les vides. Il y a une vidéo plutôt axée politique de Franck Lepage qui donne un exemple (plus élaboré) de discours "creux" : ruclips.net/video/a7ZYIUkzoqQ/видео.html&ab_channel=RomanBernard Bon j'avoue là, c'est tout un speech ^^' Mais vous voyez l'idée ?
Pitié, les gens n'ont pas besoin d'un "assistant" qui fait de l'humour et meuble avec de la merde : on veut des trucs fonctionnels, efficaces et FIABLES ! Ce que les LLMs ne sont pas... Donc merci mais baser un assistant vocal sur GPT c'est se tirer une balle dans le pied.
La réponse de communication des politiques ! Hahaha ! Mais l'idée n'est pas si idiote ou farfelue pour donner un ordre d'ordre humain, un dialogue souvent classique le temps de trouver les premiers mots. La ponctuation reste une bonne idée ici. ;)
Punaise, t'es un grand malade gars, je sens que d'ici peu ce genre de chose sera développé car je suppose que des dév regardent et doivent se dire que t'es sur un truc, que les idées que tu as mélangé pour créer cette démo est améliorable et je suis quasi certains que tu as donné des idées à plein de gens qui s'amusent à développer ce genre de trucs. Bref ça va être intéressant à suivre. Merci pour tes vidéos de dingo 👍🙃🤪
Et Vosk pour la reconnaissance vocal, ça marche bien et c'est rapide en exécution locale ;) J'ai fais une appli comme ça où GPT3 fait le MJ et la synthèse vocale d'azure est top aussi ;)
Sur le sujet des assistants vocaux il y avait un français avant Google et SIRI, JP Encausse avec son projet SARAH que j'adorais à base de Kinect, de détection vocale et d'API. Une idée d'invité peut être ?
Bonjour Underscore juste pour info que sur la chaîne « Hey initium » il a créé une version d’ia local capable de faire tous que vous avez essayé avec votre IA (traduction, commande vocal, gestion de fichiers (agenda ect…) plus analyse d’images lance de la musique…voilà donc si vous voulez voir info en plus…😅
Hello Micode, j'adore la chaine et le concept des vidéos et j'ai juste un petit point d'amélioration à suggérer pour l'ensemble des vidéos au niveau du traitement son. Je pense qu'il doit y avoir un petit réglage à améliorer sur ton gate, le treshold est peut être trop élevé ou une l'attack trop lente, ce qui fait qu'on entend pas bien les premières syllabes prononcées après chaque petit blanc dans les phrases. Ça influence la dynamique d'écoute et casse la superbe fluidité des conversation et de l'image. PS: C'est mon métier aujourd'hui, n'hésite pas à mp si besoin.
Très intéressant, vous avez suivi l'année de la voix du projet open source Home Assistant ? Ils montent actuellement un projet similaire. Ils ont aussi bien avancé.
Imagine tu prends ce principe, tu vois genre l'intégration dans un assistant vocal. Ok, maintenant, imagine que tu veux faire des exercices d'entraînement pour tes études en médecines, en philosophie ou autre.. et que tu lui fais cette demande, celle de te construire une sorte de quizz ou autre. Dans l'idée, ça existe déjà, mais. Imagine que tu aurais un tableau interactif comme ce que l'on a dans les collèges. Tu vois, le truc avec le stylet ? Où alors simplement un rétroprojecteur. Tu génére un questionnaire et/ou des exercices, tu essaies de vérifier au préalable la conformité de la réalisation des exercices, et tu contrôles en iot le tableau avec l'assistant vocal. Avec des fonctions complémentaires comme des demandes d'indices pour t'aiguiller. Puis, d'autres idées me viennent pendant que j'écris je message. Imaginer une simulation d'entretien dans un domaine en particulier pour les personnes ne disposant pas assez d'aisance pour le moment à la communication. Il y a vraiment un taf à faire derrière, il faut vraiment s'approprier seinement de cette technologie. Désolé si c'est assez barbare comme réponse, j'espère qu'elle sera lu et commenté haha :)
Je comprends , les abonnement sont assez cher, mais pour le moment les meilleurs models sont tous payants^^ après ça pourrait revenir à un abonnement à 30 € par mois pour un Jarvis complet, ça peut le faire... Ma démo: www.twitch.tv/videos/1861765919
Au premier jour de mon utilisation de chat gpt, j'ai pensé directement "eeeennfffiin on va pouvoir redevenir aussi efficace qu'au papier/stylo pour exprimer nos idées" tout en conservant tout les avantages de la numérisation J'ai hâte !
Oh mon Dieu, je dis oui, très volontiers pour partager le code que vous avez pondu ! Et tant mieux si il n'est pas blindé et bardé de fioritures, on pourra plus facilement identifier et pomper les snippets utiles.
Le plus simple s'est de monté une machine de distribution "Serveur" ensuite vous pouvez l'utilisé en réseau local avec des raspberys, enfin il ne reste que faire une interface en ligne afin de pouvoir l'utilisé comme bon vous semble et peut importe l'endroit où vous vous trouvez !
Ca a l'air vraiment énorme ! Est ce que vous pouvez faire un epetite video explicative pour l'installation afin que les personnes qui n'y connaissent rien en code comme moi puisse l'utiliser ?
Nan il leur suffit de ne pas donner leur clé api et que chacun mette la sienne. J'ai pas le temp la tout de suite mais je met si ça vous intéresse je vous met a dispo un script python qui fait pareil (sans ma clé API bien-sure :-) )
@@anthonymalaquin7 oé mais faudra payer de tt manière pour l'utiliser, je pense que l'auteur du tweet pensait que c'était gratuit et que n'importe qui pouvait l'utiliser autant de fois qu'il le voulait
Oui, après je fait quelques test. Pour plusieurs questions avec environ 500 caractères répondu par chat-gpt je suis a 5 centimes de consomation. Possibilités de bloquer le montant par mois.
Pour la problématique du modèle ayant besoin d'une grosse machine, on peut avoir des raspberry pi zéro sur rhasspy, en poussant l'audio en raw sur une plus grosse machine hostant le modèle avec un gpu
Bravo !! Vous etes des cracks, bluffant !!! Comme toujours vos vidéos font voyager dans le futur. C'est un privilège même de les voir. Et encore une fois moi je fond pour Tiffany, intelligente, belle je craque aussi !!! Bravo
En fait, le véritable assistant virtuel c'est le truc à qui tu dis "prends moi un rendez vous chez un ophtalmo s'il te plait, et pas dans 6 mois" et qui soit capable d'aller dans le botin, chercher des numéros de médecins dans le coin, faire un appel téléphonique et demander au secrétariat s'ils prennent les nouveaux patients auquel cas essayer de prendre un rdv dans moins de 5 mois...passer au suivant... et si le secrétériat a besoin d'infos, les lui fournir.
Des energies pourraient être surprises de ce qui se passe dans les yeux , les oreilles des gens . Et chercherais peut être du dialogue ? C est dingue !!
Salut la team, merci pour toute vos vidéos. Je suis actuellement aussi entrain de développer un assistant vocal comme le votre, en python et en local pour la compréhension et la parole avec speech_recognition et Google text to speech (gttx).
C'est marrant de se dire qu'en 2023 ce soit la production de la voix qui pose des difficultés alors que c'est le premier problème des 3 à avoir été réglé dès le début des années 80! On trouvait notamment des synthétiseurs vocaux tels que le PCF8200 qui se programmaient à base de phonèmes, et à l'époque les gens rêvaient de pouvoir transcoder un jour du langage naturel en phonèmes pour ça! En ligne on trouve aussi depuis environ 10 ans Acapella (d'acapella group) qui a pas mal de voix de très haute qualité et qui prend du langage naturel en entrée. Ensuite, je trouve que souvent la qualité de la voix est bien moins importante que l'usage local, qui est le seul moyen d'en avoir un non-censuré, sinon c'est pas marrant. Pour le LLM, même sur une petite machine, tu peux avoir de très bons résultats avec orca-mini-v2 dans llama.cpp, par exemple qui est plutôt précis et ultra-rapide à la fois (7 Go de RAM). Si t'as une grosse machine, tu peux monter sur vicuna ou airoboros en 13B ou 33B qui sont bien plus cultivés mais qui auront du mal à tenir le rythme de discussion si tu n'as pas de GPU à leur filer.
Pour entendre parler les assistants depuis 2010 on attend depuis un moment pour avoir quelque-chose de fonctionnel et d'agréable... Là ça cause, si on peut installer ça sur Android c'est top ! Bon je ne sais pas si c'est possible de lui demander de lancer le gps, une musique ou autre mais bon...
J’ai aussi eu cette idée sans avoir pris le temps de creuser. Bravo pour cette démo. Le coup de « ok Michelle » c’est pas mal mais je pense qu’on peut aussi améliorer l’interaction en faisant en sorte qu’il soit constamment à notre écoute. Cela permettrait qu’on puisse lui couper la parole ou simplement qu’on ai pas à répéter « ok michel » à chaque interactions
Comme ca il t’écoute tout le temps et si tu utilise un réseau qui n’est pas locale ou que tu utilise les différentes API mis a ta disposition tout le monde a accès a ton trafic autant mettre une camera et un micro en WEP connecté a un site en http dans ton salon et dans ta chambre (ou acheter un telephone…)😅
Pour ce qui est des APIs de reconnaissance vocale (Speech-to-Text), génération de voix (Text-to-Speech) et même de génération de texte, je recommande de jeter un coup d'oeil à Eden AI : la plateforme agrège ce qui se fait de mieux à ce niveau là et permet de choisir assez facilement le plus performant / rapide / abordable !
Pourquoi ne pas découper l'IA en plusieurs IA : - "Okay Siri Histoire, quand on parle des temps médiévaux, de quoi parle t'on ?" - "Okay News, qu'est ce qui s'est passé dans ma région hier ?" - "Okay Art, qui a produit l'album de Pink Floyd en 82 ?"
j'ai cette erreur à chaque fois : (node:9848) UnhandledPromiseRejectionWarning: TypeError: win.setWindowButtonVisibility is not a function at createWindow (C:\Projets codes\eva\dist-electron\main.js:203:6943) at C:\Projets codes\eva\dist-electron\main.js:203:7938 (Use `electron --trace-warnings ...` to show where the warning was created) (node:9848) UnhandledPromiseRejectionWarning: Unhandled promise rejection. This error originated either by throwing inside of an async function without a catch block, or by rejecting a promise which was not handled with .catch(). To terminate the node process on unhandled promise rejection, use the CLI flag `--unhandled-rejections=strict` (see nodejs.org/api/cli.html#cli_unhandled_rejections_mode). (rejection id: 1)
J'utilise déjà chatgpt-3.5-turbo sur rpi avec Wyoming sur une instance home assistant, et ça pilote déjà mes lampes. Je peux lui exposer ce que je veux de connecté (télé, cafetière, lampes, ordis ...) et il est capable de, sur simple ordre, exécuter les commandes. Par exemple, je peux lui demander des conseils pour m'habiller le matin, sachant qu'il sait interpréter la météo du coup. EDIT : Regardez un peu le travail de Nabu Casa dans le domaine :p
Cc. Si tu veux le faire complètement en local ça marche, par contre tu peux oublier les agents et il faut russer pour répartir la charge sur le pi. En revanche coter SST il y a aussi vosk qui marche dans le navigateurs pour pas saturer ton pi. Ça te permet aussi d'utiliser le tts de l'os via speech api du browser. Donc un Phone et un pi et t'es le roi 😉. Après ça te règle pas l'overkill du gpt. En effet il faut que sur le stream tu trouve un moyen d'esquive le gpt pour une tâche déjà connu pour gagner du temps et pour pas cramer de l'énergie inutile qui impactera la batterie de ton pi. Pour la vitesse minimum c'est le speaker qui donne le tempo tu as pas besoin d'être plus rapide pour le gpt. Donc text web ui, l'équivalent de automatic1111 pour les llm ça passe
J'ai fait un truc similaire avec Alexa à travers une skill c'était cool de l'avoir directement sur l'echo, par contre j'ai mis une semaine pour le sortir pas un jour mdrrr
Nan mais franchement, l'application Bing c'est déjà quasiment ça ! Le seul truc que ça peut pas faire c'est faire des action extérieur comme sur de la domotique. Mais avec l'intégration prochaine à Windows on s'en rapproche ! J'utilise Bing Chat en Vocal souvent. La synthèse vocal du cloud Asure est d'ailleurs la meilleur que j'ai entendu.
J'imagine déjà l'option de l'assistant virtuel qui se déplace jusqu'à l'interrupteur ou le téléphone pour faire ce que tu lui demande lorsque tu l'utilise avec le casque sur la tête 😂
Génial. Pourquoi ne pas ajouter une instruction pour qu'il comble le silence initial pour donner l'impression d'une réponse immédiate? Sans contexte il suffit de commencer par des phrases du genre "bonjour, je suis ravi d'échanger sur ce sujet..." qui peuvent être générées instantanément, et avec contexte il suffit d'apporter un complément de réponse préparé au préalable lors de la dernière réponse. Comme ça on comble les premières secondes de vide, puis tout le reste c'est "live" par streaming. Ca donnerait l'impression qu'il n'y au aucune latence au grand public. Pas mal non?
Shortcut iPhone pour le faire (il faut l’application Chat GPT installée au préalable) : 1) Dictate text (configurer selon la langue) 2) Ask Chat GPT (mettre la variable « dictate text » et décocher « continuous ») 3) Speak (utiliser la variable ask chat GPT) 4) Mettre le tout dans une boucle repeat avec un nombre d’itérations élevé
Ouaa merci pour le code ..... tellement de temps gagné pour me faire mon assistant perso en local.... sur mon gros PC.... idéalement je serait prêt à prendre plus d'attente si je pouvait tout faire tourner en local hors internet.
Salut la te@m, très intéressant, pour ma part j'utilise la librairie "speech_recognition", avec api de "GPT3.5-Turbo",je n'ai pas utilisé "Whisper", que je ne connaissais pas...bon comme vous l'avez remarqué il y a une grosse latence entre la lecture du prompt et la réponse. Comment peut-on voir votre script (même cracra 😊 ) ?
Avec tous ces outils, nous vivons vraiment une révolution. Dans les films de science fiction, on a vu des personnages parler à un ordinateur qui leur répondait (ex : 2001 odyssée de l'espace). Et bien, ça arrive. J'ai 64 ans et je me dis que je vis vraiment une époque formidable. J'ai appris l'informatique sur un Apple IIe, j'ai vu débarquer les premiers IBM PC dans les bureaux, puis la bureautique, la messagerie, les téléphones portables, les smartphones, les réseaux sociaux, l'intelligence artificielle. Et ce n'est pas fini ! La plupart d'entre-vous ont pris le train en marche mais ceux qui sont nés autour de 1960 ont été les témoins privilégiés de toute cette transformation. C'est vertigineux. Dites-vous que quand j'ai commencé à travailler en tant qu'étudiant, je tapais des fiches d'inventaire sur une machine à écrire, et que maintenant, je parle à mon téléphone !
En fait j'ai déjà fait presque exactement la même chose depuis 2 mois pour un jeu VR qui dois sortir en fin d'année (avec aussi génération IA d'environement 3d vocal ... )
Au niveau du son de votre micro pouvez vous régler votre gate un peu moins fort. On a l’impression que vous ne respirez pas et ce n’est pas agréable à l’écoute, ça coupe trop. Merci ❤ pour vos vidéos toujours très intéressantes 😊
Chouette vidéo. Mais je n'utiliserai pas de sitôt ce type d'outils avec détection vocale + réponse vocale car la détection vocale n'est pas encore au point et surtout car je vais beaucoup beaucoup plus vite à lire une réponse textuelle qu'à écouter une réponse vocale. Mais les assistants vocaux vont évoluer c'est certain. Concernant ces grosses daubes que sont les assistants de type Siri, leur première mission aurait dû être d'assister l'utilisateur à paramétrer l'appareil en lui parlant naturellement : du genre "allume le GPS" afin que l'assistant comprenne qu'il doit "activer le service de localisation", sans avoir besoin de lui indiquer précisément "activer le service de localisation" puisque si on connaît la terminologie exacte à utiliser on n'a probablement pas besoin de l'assistant pour trouver et activer le réglage en question. De même, Siri devrait être capable d'expliquer à quoi servent les réglages affichés afin de savoir s'il faut les activer ou pas.
Bravo vous avez demistifié GPT ; Il est possible d’aller relativement loin avec des assistants virtuels hybrides en mixant GPT et d’autres systèmes d’ia moins gourmands avec des voix neuronales. Le problème gpt est très bon mais effectivement les apis répondent le lentement😂 ; il y’a des astuces pour accélérer les réponses. Si vous connaissez la dernière version de whisper on peut très vite monter des usecases avec des conversations semi intelligentes
comment on l'installe j'ai windows 8 et ca ne veut pas se lancer.... et j'ai windows 11 sur le quel j'ai pas mis encore mais sinon c'est possible de mettre en description la façon de l'intsaller car c'est top ton "ia" :)
Ca serait cool que vous peaufiniez le truc qu'on puisse après genre le télécharger sur son pc, qu'il soit là en arrière plan et qu'on puisse lâcher des "Ok Michelle" un peu comme Cortana qu'est de base sur Widows mais en mieux du coup (parce que c'est quand même bien pourri Cortana)
Sur Android j'ai eu la chance de pouvoir acheter les voix françaises de chez Voxygen qui sont d'excellente qualité. J'ai même la voix du père noël, une voix chantante appelée Mélodine, une voix "chaude" appelée Electra, une voix d'ivoirien, de (faux) texan, etc.... Je vais m'éclater à les utiliser comme assistants personnels 🎉
Chasse au trésor: trouvé l'initiateur de Bec, Beck ou Becka (me souviens plus du nom) l'année de développement (avant Siri et belles autres) et la où il en ai. Llm couches réseau neuronal et cloud système (info: il est en France, cherche pourquoi ou pourquoi quoi?)
Vous êtes trop mignons avec vos sourires laaaa, y'a tellement d'amour et de passion dans ce que vous transmettez! Merci d'exister vous êtes les best😍
« Le code au peuple », j’adore l’expression. Tiffany ne parle pas souvent mais à chaque fois c’est percutant. Trop forte !
Il y a beaucoup mieux. Il y a l'assistant vocal "Albert" de Gorgius, qui fonctionne totalement de façon autonome, sans aucune API et même sans connexion internet. J'ai la chance de pouvoir tester les nouvelles versions béta régulièrement. Actuellement dans sa version 5.8, Albert à sa propre IA local qui fonctionne sur des petits ordinateurs. Le projet est exactement ce que tu recherche en mieux à mon avis.
Oui j'ai vue sa chaine ici : ruclips.net/video/cza5lBsycA4/видео.html&ab_channel=Gorgius
Son projet est fou, mais il ne le partage qu'à un petit groupe de personne, car son travail lui avait déjà été volé. La version d'aujourd'hui est géniale avec son nouvel IA .
Ca m'a motive a me faire le mien =D underscore ca motive a coder !D'ailleurs j'ai trouve une techo interessante Llama-index: tu peux linker ton backend chatgpt a des db SQL, NoSQL, requeter en langage naturel, construire des index pour des documents et construire ton chatbot base sur des connecteurs DB, files, cloud, parser web, github etc.. et c'est fastoch a utiliser
Ce qui serait nextlevel c'est que l'IA puisse comprendre quand on l'interrompt, qu'on ne soit pas obligé d'écouter tout le resultat + qu'elle comprenne quand on marque une pause parce qu'on cherche nos mots.
Deux petites améliorations simples pour un rendu un peu plus joli :
- Une fois le premier bout d’audio reçu, regarder sa longueur (ce qui nous donne le temps dispo avant de devoir lire le deuxième) et en profiter pour passer des phrases plus longues au bot text2speech pour qu’il ait une meilleure intonation,
- utiliser une voix qui parle plus vite ou accélérer un peu la lecture.
Tellement hâte que en plus, ce type d'assistant puisse se souvenir des conversations précédentes d'un utilisateur. Qu'il apprenne à la connaître. Se souvenir de ses besoins, hobby, événements de calendrier. Bref un vrai Jarvis quoi
C'est déjà le cas de chatgpt si tu gardes le même fil de discussion au lieu d'en lancer un nouveau. Donc si l'assistant est connecté à chatgpt, il suffit de garder la même session pour tous les appels à l'api
@@nothing2believeje ne sais pas pour la v4, mais la v3.2 se mélange les pinceaux dès que la conversation est un peu longue
@@nothing2believe pour la v4 idem. Si conversation trop longue il ne se souvient plus. D'où je pensais faire une db dans laquelle il stockerait régulièrement des synthèses des conversations afin de pouvoir se "souvenir" plus facilement de choses anciennes ou à travers plusieurs conversations.
Des modèles comme GPT utilisent 4k tokens (env 3k mots) de contexte, donc au bout d'un moment ça se perd. De nouveaux travaux sont faits avec les modèles opensource, notamment les patches "superhot" pour étendre ces contextes à plus de 32k. Ils sont en fait un peu moins précis mais s'impreignent d'un contexte bien plus grand. Il n'en reste pas moins que le contexte est un faux problème, un humain en garde bien moins, il faudrait retravailler ces modèles sur des contextes de réflexion et de discussion distincts, et permettre enfin de mettre à jour l'état des connaissances pour apprendre de ces conversations (comme avec nous quand on dort). Aujourd'hui on triche avec le contexte mais ça ne pourra pas durer éternellement. C'est juste adapté à la production de code.
@@levieux1137 merci pour ces précisions monsieur. Je vais regarder du côté des opensources utilisant superhot du coup. 🙂
Pour "gagner du temps d'attente", ça pourrait être intéressant de détecter les attentes et de remplacer les silences par des tournures de phrases ou des onomatopées sélectionnées aléatoirement ^^
Style des "hmmm", "laisse-moi y réfléchir", "en même temps", "ah intéressant comme question !", etc.
Un peu comme quand on a une discussion avec quelqu'un et qu'on comble les vides.
Il y a une vidéo plutôt axée politique de Franck Lepage qui donne un exemple (plus élaboré) de discours "creux" :
ruclips.net/video/a7ZYIUkzoqQ/видео.html&ab_channel=RomanBernard
Bon j'avoue là, c'est tout un speech ^^'
Mais vous voyez l'idée ?
Pitié, les gens n'ont pas besoin d'un "assistant" qui fait de l'humour et meuble avec de la merde : on veut des trucs fonctionnels, efficaces et FIABLES ! Ce que les LLMs ne sont pas...
Donc merci mais baser un assistant vocal sur GPT c'est se tirer une balle dans le pied.
La réponse de communication des politiques ! Hahaha ! Mais l'idée n'est pas si idiote ou farfelue pour donner un ordre d'ordre humain, un dialogue souvent classique le temps de trouver les premiers mots. La ponctuation reste une bonne idée ici. ;)
Jveux trop le projet ! Hâte qu'il soit open source...
+1 +1 +1 !
(oui j'aurais pu mettre +3...)
c'est bon !
github.com/michael-dm/eva
@@Underscore_ merci 👌
@@Underscore_ mais top la réactivité !! 😍
Punaise, t'es un grand malade gars, je sens que d'ici peu ce genre de chose sera développé car je suppose que des dév regardent et doivent se dire que t'es sur un truc, que les idées que tu as mélangé pour créer cette démo est améliorable et je suis quasi certains que tu as donné des idées à plein de gens qui s'amusent à développer ce genre de trucs. Bref ça va être intéressant à suivre. Merci pour tes vidéos de dingo 👍🙃🤪
Le début de la vidéo me fait rire parce que je fait réellement partie des gens qui ont fait un assistant vocal qui utilise chatgpt mdrr
I can relate xd
😂😂😂 Présent ! ça va vous le buffer toussa toussa 💀?
Perso j'ai utilisé llama cpp
Un tuto quelque part pour s’y mettre aussi ?
@@hypnos1066 si tu veux apprendre à coder je peux te conseiller openclassrooms
Et Vosk pour la reconnaissance vocal, ça marche bien et c'est rapide en exécution locale ;)
J'ai fais une appli comme ça où GPT3 fait le MJ et la synthèse vocale d'azure est top aussi ;)
Sur le sujet des assistants vocaux il y avait un français avant Google et SIRI, JP Encausse avec son projet SARAH que j'adorais à base de Kinect, de détection vocale et d'API. Une idée d'invité peut être ?
Très bonne idée
Y"a eu Jarvis aussi ...
en raspberry pi
oh oui j aimais bien sarah
Bonjour Underscore juste pour info que sur la chaîne « Hey initium » il a créé une version d’ia local capable de faire tous que vous avez essayé avec votre IA (traduction, commande vocal, gestion de fichiers (agenda ect…) plus analyse d’images lance de la musique…voilà donc si vous voulez voir info en plus…😅
Hello Micode, j'adore la chaine et le concept des vidéos et j'ai juste un petit point d'amélioration à suggérer pour l'ensemble des vidéos au niveau du traitement son. Je pense qu'il doit y avoir un petit réglage à améliorer sur ton gate, le treshold est peut être trop élevé ou une l'attack trop lente, ce qui fait qu'on entend pas bien les premières syllabes prononcées après chaque petit blanc dans les phrases. Ça influence la dynamique d'écoute et casse la superbe fluidité des conversation et de l'image.
PS: C'est mon métier aujourd'hui, n'hésite pas à mp si besoin.
C'est dingue ! Un Raspi + micro/Baffle dans un beau boitier imprimé en 3D , tu vends ça comme des petits pains 😉
Mais tellement, omg !
Pas vraiment, il y a un problème : les clés d’API
Ce n’est pas gratuit et ça va dépendre de l’utilisation de l’utilisateur
Très intéressant, vous avez suivi l'année de la voix du projet open source Home Assistant ? Ils montent actuellement un projet similaire. Ils ont aussi bien avancé.
C'est tellement cool !! bravo !
Très bonne vidéo, bien explicative !
Imagine tu prends ce principe, tu vois genre l'intégration dans un assistant vocal. Ok, maintenant, imagine que tu veux faire des exercices d'entraînement pour tes études en médecines, en philosophie ou autre.. et que tu lui fais cette demande, celle de te construire une sorte de quizz ou autre. Dans l'idée, ça existe déjà, mais. Imagine que tu aurais un tableau interactif comme ce que l'on a dans les collèges. Tu vois, le truc avec le stylet ? Où alors simplement un rétroprojecteur. Tu génére un questionnaire et/ou des exercices, tu essaies de vérifier au préalable la conformité de la réalisation des exercices, et tu contrôles en iot le tableau avec l'assistant vocal. Avec des fonctions complémentaires comme des demandes d'indices pour t'aiguiller. Puis, d'autres idées me viennent pendant que j'écris je message. Imaginer une simulation d'entretien dans un domaine en particulier pour les personnes ne disposant pas assez d'aisance pour le moment à la communication. Il y a vraiment un taf à faire derrière, il faut vraiment s'approprier seinement de cette technologie. Désolé si c'est assez barbare comme réponse, j'espère qu'elle sera lu et commenté haha :)
Pour la génération de quiz, il existe Aistote actuellement. Il n'y a pas d'assistance vocal encore mais c'est le début.
je rêve d'avoir cette version en local !
Je comprends , les abonnement sont assez cher, mais pour le moment les meilleurs models sont tous payants^^ après ça pourrait revenir à un abonnement à 30 € par mois pour un Jarvis complet, ça peut le faire... Ma démo: www.twitch.tv/videos/1861765919
Merci, votre chaîne est vraiment fun !
Je relaie.
Au premier jour de mon utilisation de chat gpt, j'ai pensé directement "eeeennfffiin on va pouvoir redevenir aussi efficace qu'au papier/stylo pour exprimer nos idées" tout en conservant tout les avantages de la numérisation
J'ai hâte !
Oh mon Dieu, je dis oui, très volontiers pour partager le code que vous avez pondu !
Et tant mieux si il n'est pas blindé et bardé de fioritures, on pourra plus facilement identifier et pomper les snippets utiles.
Le plus simple s'est de monté une machine de distribution "Serveur" ensuite vous pouvez l'utilisé en réseau local avec des raspberys, enfin il ne reste que faire une interface en ligne afin de pouvoir l'utilisé comme bon vous semble et peut importe l'endroit où vous vous trouvez !
Excellente idée c'est super, merci beaucoup pour cette vidéo 👍
Ca a l'air vraiment énorme ! Est ce que vous pouvez faire un epetite video explicative pour l'installation afin que les personnes qui n'y connaissent rien en code comme moi puisse l'utiliser ?
Il paie l'API d'OpenAI donc c impossible qu'il le mette en public ça lui reviendrait cher
Nan il leur suffit de ne pas donner leur clé api et que chacun mette la sienne. J'ai pas le temp la tout de suite mais je met si ça vous intéresse je vous met a dispo un script python qui fait pareil (sans ma clé API bien-sure :-) )
@@anthonymalaquin7 oé mais faudra payer de tt manière pour l'utiliser, je pense que l'auteur du tweet pensait que c'était gratuit et que n'importe qui pouvait l'utiliser autant de fois qu'il le voulait
@@anthonymalaquin7 salut ça m’intéresse
Oui, après je fait quelques test. Pour plusieurs questions avec environ 500 caractères répondu par chat-gpt je suis a 5 centimes de consomation. Possibilités de bloquer le montant par mois.
Quand vous le mettez en ligne, faites un tuto rapide pour l'installer.
C'est pour les gens comme moi qui sont impressionnés sans rien y comprendre
Bravo, en plus de raconter de belles histoires sur la tech, vous êtes compétents et créatifs.
Pour la problématique du modèle ayant besoin d'une grosse machine, on peut avoir des raspberry pi zéro sur rhasspy, en poussant l'audio en raw sur une plus grosse machine hostant le modèle avec un gpu
Bravo !! Vous etes des cracks, bluffant !!! Comme toujours vos vidéos font voyager dans le futur. C'est un privilège même de les voir. Et encore une fois moi je fond pour Tiffany, intelligente, belle je craque aussi !!! Bravo
En fait, le véritable assistant virtuel c'est le truc à qui tu dis "prends moi un rendez vous chez un ophtalmo s'il te plait, et pas dans 6 mois" et qui soit capable d'aller dans le botin, chercher des numéros de médecins dans le coin, faire un appel téléphonique et demander au secrétariat s'ils prennent les nouveaux patients auquel cas essayer de prendre un rdv dans moins de 5 mois...passer au suivant... et si le secrétériat a besoin d'infos, les lui fournir.
Des energies pourraient être surprises de ce qui se passe dans les yeux , les oreilles des gens . Et chercherais peut être du dialogue ?
C est dingue !!
Super intéressant ! c'est exactement sur quoi je bosse en ce moment. J'ai testé Bark mais il fait des rires de sorcière, j'ai directement coupé...
Par contre ElevenLabs ne gère pas encore les nombres...
Salut la team, merci pour toute vos vidéos. Je suis actuellement aussi entrain de développer un assistant vocal comme le votre, en python et en local pour la compréhension et la parole avec speech_recognition et Google text to speech (gttx).
Comment as tu fais pour cherché, trouvé les bonnes info, et crée tout sa en moins d'un jour? Trop fort j'adore regarder tes vidéos 😁😁
C'est marrant de se dire qu'en 2023 ce soit la production de la voix qui pose des difficultés alors que c'est le premier problème des 3 à avoir été réglé dès le début des années 80! On trouvait notamment des synthétiseurs vocaux tels que le PCF8200 qui se programmaient à base de phonèmes, et à l'époque les gens rêvaient de pouvoir transcoder un jour du langage naturel en phonèmes pour ça!
En ligne on trouve aussi depuis environ 10 ans Acapella (d'acapella group) qui a pas mal de voix de très haute qualité et qui prend du langage naturel en entrée.
Ensuite, je trouve que souvent la qualité de la voix est bien moins importante que l'usage local, qui est le seul moyen d'en avoir un non-censuré, sinon c'est pas marrant. Pour le LLM, même sur une petite machine, tu peux avoir de très bons résultats avec orca-mini-v2 dans llama.cpp, par exemple qui est plutôt précis et ultra-rapide à la fois (7 Go de RAM). Si t'as une grosse machine, tu peux monter sur vicuna ou airoboros en 13B ou 33B qui sont bien plus cultivés mais qui auront du mal à tenir le rythme de discussion si tu n'as pas de GPU à leur filer.
Pour entendre parler les assistants depuis 2010 on attend depuis un moment pour avoir quelque-chose de fonctionnel et d'agréable...
Là ça cause, si on peut installer ça sur Android c'est top !
Bon je ne sais pas si c'est possible de lui demander de lancer le gps, une musique ou autre mais bon...
NAN MAIS C'EST BIEN PLUS QU'UN NOUVEL ASSISTANT VOCAL C'EST UN NOUVEAU COPAIN !!!
C'est absurbe tellement c'est surprenant et ça marche bien !!
C'est effrayant de se dire que ça + Apple vision = Iron man, genre vraiment c'est fascinant
J’ai aussi eu cette idée sans avoir pris le temps de creuser. Bravo pour cette démo. Le coup de « ok Michelle » c’est pas mal mais je pense qu’on peut aussi améliorer l’interaction en faisant en sorte qu’il soit constamment à notre écoute. Cela permettrait qu’on puisse lui couper la parole ou simplement qu’on ai pas à répéter « ok michel » à chaque interactions
Comme ca il t’écoute tout le temps et si tu utilise un réseau qui n’est pas locale ou que tu utilise les différentes API mis a ta disposition tout le monde a accès a ton trafic autant mettre une camera et un micro en WEP connecté a un site en http dans ton salon et dans ta chambre (ou acheter un telephone…)😅
Pour ce qui est des APIs de reconnaissance vocale (Speech-to-Text), génération de voix (Text-to-Speech) et même de génération de texte, je recommande de jeter un coup d'oeil à Eden AI : la plateforme agrège ce qui se fait de mieux à ce niveau là et permet de choisir assez facilement le plus performant / rapide / abordable !
Ça rappelle ce que Idris Aberkane dit sur le futur de l'assistance vocale : en gros c'est un super Alfred de Batman
Le modèle de voix que vous avez choisi me fait penser à la voix dépressive du vaisseau de Ulysse31 en VF -.-'
Sinon bravo ca marche super bien ^^
"un Étienne Klein" ... OUIIII !!! J'utilise ses conférences pour a peu près tout les moments où j'ai pas d'idée de quoi écouter 👌
Pourquoi ne pas découper l'IA en plusieurs IA :
- "Okay Siri Histoire, quand on parle des temps médiévaux, de quoi parle t'on ?"
- "Okay News, qu'est ce qui s'est passé dans ma région hier ?"
- "Okay Art, qui a produit l'album de Pink Floyd en 82 ?"
Es ce que vous pouvez faire un readme un peu plus détaillé ou un mini tuto video ? (je n'arrive pas à setup le projet :( )
j'ai cette erreur à chaque fois :
(node:9848) UnhandledPromiseRejectionWarning: TypeError: win.setWindowButtonVisibility is not a function
at createWindow (C:\Projets codes\eva\dist-electron\main.js:203:6943)
at C:\Projets codes\eva\dist-electron\main.js:203:7938
(Use `electron --trace-warnings ...` to show where the warning was created)
(node:9848) UnhandledPromiseRejectionWarning: Unhandled promise rejection. This error originated either by throwing inside of an async function without a catch block, or by rejecting a promise which was not handled with .catch(). To terminate the node process on unhandled promise rejection, use the CLI flag `--unhandled-rejections=strict` (see nodejs.org/api/cli.html#cli_unhandled_rejections_mode). (rejection id: 1)
la vidéo tombe à pic je viens de me lancer dans un projet comme ça, je voulais en mettre un dans un jouet R2D2 échelle 1:1
Hello avez-vous déjà posté le code source?
Les experts ChatGPT qui prendront la place des experts BFMTV.
Cet assistant qui répond à tes mails v2 😂
J'utilise déjà chatgpt-3.5-turbo sur rpi avec Wyoming sur une instance home assistant, et ça pilote déjà mes lampes. Je peux lui exposer ce que je veux de connecté (télé, cafetière, lampes, ordis ...) et il est capable de, sur simple ordre, exécuter les commandes.
Par exemple, je peux lui demander des conseils pour m'habiller le matin, sachant qu'il sait interpréter la météo du coup.
EDIT : Regardez un peu le travail de Nabu Casa dans le domaine :p
Top comme d'habitude
Cc. Si tu veux le faire complètement en local ça marche, par contre tu peux oublier les agents et il faut russer pour répartir la charge sur le pi. En revanche coter SST il y a aussi vosk qui marche dans le navigateurs pour pas saturer ton pi. Ça te permet aussi d'utiliser le tts de l'os via speech api du browser. Donc un Phone et un pi et t'es le roi 😉. Après ça te règle pas l'overkill du gpt. En effet il faut que sur le stream tu trouve un moyen d'esquive le gpt pour une tâche déjà connu pour gagner du temps et pour pas cramer de l'énergie inutile qui impactera la batterie de ton pi. Pour la vitesse minimum c'est le speaker qui donne le tempo tu as pas besoin d'être plus rapide pour le gpt. Donc text web ui, l'équivalent de automatic1111 pour les llm ça passe
Hacksmith a réussi à en faire une bonne version capable de commander des pizzas, de contrôler les robots de leur atelier, c'est sympa !
J'ai fait un truc similaire avec Alexa à travers une skill c'était cool de l'avoir directement sur l'echo, par contre j'ai mis une semaine pour le sortir pas un jour mdrrr
Nan mais franchement, l'application Bing c'est déjà quasiment ça !
Le seul truc que ça peut pas faire c'est faire des action extérieur comme sur de la domotique. Mais avec l'intégration prochaine à Windows on s'en rapproche !
J'utilise Bing Chat en Vocal souvent. La synthèse vocal du cloud Asure est d'ailleurs la meilleur que j'ai entendu.
Magnifique travail 🤩
Apple avec Vision pro vont sûrement surprendre tout le monde avec une version ultime d’un assistant virtuelle…
J'imagine déjà l'option de l'assistant virtuel qui se déplace jusqu'à l'interrupteur ou le téléphone pour faire ce que tu lui demande lorsque tu l'utilise avec le casque sur la tête 😂
C'est comme dans le film "Her" quoi
Génial. Pourquoi ne pas ajouter une instruction pour qu'il comble le silence initial pour donner l'impression d'une réponse immédiate? Sans contexte il suffit de commencer par des phrases du genre "bonjour, je suis ravi d'échanger sur ce sujet..." qui peuvent être générées instantanément, et avec contexte il suffit d'apporter un complément de réponse préparé au préalable lors de la dernière réponse. Comme ça on comble les premières secondes de vide, puis tout le reste c'est "live" par streaming. Ca donnerait l'impression qu'il n'y au aucune latence au grand public. Pas mal non?
Oui c'est une bonne idée
Héhé, le prompt "jarvis" sur la ligne de commande 🤔
Bien joué Tony 😎
Shortcut iPhone pour le faire (il faut l’application Chat GPT installée au préalable) :
1) Dictate text (configurer selon la langue)
2) Ask Chat GPT (mettre la variable « dictate text » et décocher « continuous »)
3) Speak (utiliser la variable ask chat GPT)
4) Mettre le tout dans une boucle repeat avec un nombre d’itérations élevé
Il y a le projet Leon qui est pas mal !
Y'a pas Tortoise TTS à la place de bark pour le text to speech ?
es que c'est project son dispo sur un github
Je voulais faire Jarvis avec la même idée 😂
C'est ouf c'que vous faites !
A faire marcher en local et à entraîner sur des données perso pour voir s’il peut répondre à ta place :)
Wow
Surtout quand tu lui as dit de dire plus
Comment serons nous en courant quand le code sera disponible ?
Ouaa merci pour le code ..... tellement de temps gagné pour me faire mon assistant perso en local.... sur mon gros PC.... idéalement je serait prêt à prendre plus d'attente si je pouvait tout faire tourner en local hors internet.
Bonjour je suis vraiment peu connaisseur j'ai vu que tu l'avais installer comment on fait?
@@thibaultdelpui5571
Non je ne l'ai pas installé. mais tu peux aller lire le README dans le lien dans la description, c'est expliqué
Salut la te@m, très intéressant, pour ma part j'utilise la librairie "speech_recognition", avec api de "GPT3.5-Turbo",je n'ai pas utilisé "Whisper", que je ne connaissais pas...bon comme vous l'avez remarqué il y a une grosse latence entre la lecture du prompt et la réponse. Comment peut-on voir votre script (même cracra 😊 ) ?
Avec tous ces outils, nous vivons vraiment une révolution. Dans les films de science fiction, on a vu des personnages parler à un ordinateur qui leur répondait (ex : 2001 odyssée de l'espace). Et bien, ça arrive.
J'ai 64 ans et je me dis que je vis vraiment une époque formidable. J'ai appris l'informatique sur un Apple IIe, j'ai vu débarquer les premiers IBM PC dans les bureaux, puis la bureautique, la messagerie, les téléphones portables, les smartphones, les réseaux sociaux, l'intelligence artificielle. Et ce n'est pas fini !
La plupart d'entre-vous ont pris le train en marche mais ceux qui sont nés autour de 1960 ont été les témoins privilégiés de toute cette transformation. C'est vertigineux.
Dites-vous que quand j'ai commencé à travailler en tant qu'étudiant, je tapais des fiches d'inventaire sur une machine à écrire, et que maintenant, je parle à mon téléphone !
Merci pour le repo !!!
Très intéressé par le code de Michelle !
C'est pour bientôt le scanner portable de star trek 😂
ça fait réfléchir...j'aurai peur de plus parler avec cette intelligence artificielle qu'avec mes proches IRL 🤔
L'assistant vocal de Bing fait la même chose et aussi rapide.
En fait j'ai déjà fait presque exactement la même chose depuis 2 mois pour un jeu VR qui dois sortir en fin d'année (avec aussi génération IA d'environement 3d vocal ... )
En VR ça va être fou et tellement intuitif !
J'espère top et sur ton jeu :)
il s'appelle comment le jeu ?
J'aurais enfin mon Sheldon robotisé
Comme dans les film: parler avec un robot pour trouver des idées 💡
Trop bien je valide🎉
Plus que quelques semaines avant de se transformer en hikikomori 2.0 ❤
Au niveau du son de votre micro pouvez vous régler votre gate un peu moins fort. On a l’impression que vous ne respirez pas et ce n’est pas agréable à l’écoute, ça coupe trop.
Merci ❤ pour vos vidéos toujours très intéressantes 😊
Chouette vidéo. Mais je n'utiliserai pas de sitôt ce type d'outils avec détection vocale + réponse vocale car la détection vocale n'est pas encore au point et surtout car je vais beaucoup beaucoup plus vite à lire une réponse textuelle qu'à écouter une réponse vocale. Mais les assistants vocaux vont évoluer c'est certain.
Concernant ces grosses daubes que sont les assistants de type Siri, leur première mission aurait dû être d'assister l'utilisateur à paramétrer l'appareil en lui parlant naturellement : du genre "allume le GPS" afin que l'assistant comprenne qu'il doit "activer le service de localisation", sans avoir besoin de lui indiquer précisément "activer le service de localisation" puisque si on connaît la terminologie exacte à utiliser on n'a probablement pas besoin de l'assistant pour trouver et activer le réglage en question. De même, Siri devrait être capable d'expliquer à quoi servent les réglages affichés afin de savoir s'il faut les activer ou pas.
Impressionnant !
Bravo vous avez demistifié GPT ; Il est possible d’aller relativement loin avec des assistants virtuels hybrides en mixant GPT et d’autres systèmes d’ia moins gourmands avec des voix neuronales. Le problème gpt est très bon mais effectivement les apis répondent le lentement😂 ; il y’a des astuces pour accélérer les réponses. Si vous connaissez la dernière version de whisper on peut très vite monter des usecases avec des conversations semi intelligentes
Merci c'est au top, je kifferais utiliser Michel avec ma domotique
Très intéressant. Merci. Svp, quel modèle de micro utilisez vous ?
Encore un sujet incroyable
Haaa mais c’est énorme un rêve as tu développé l’app ? ❤
c'est assez époustouflant 😮
Y’a un plugin Google pour chatgpt avec tu peux lancer ton prompt/ question par la voix et lire la réponse également avec la voix….
Trop fort. Le git ! Le git ! 🙏
5:57 ça fait réfléchir
comment on l'installe j'ai windows 8 et ca ne veut pas se lancer.... et j'ai windows 11 sur le quel j'ai pas mis encore mais sinon c'est possible de mettre en description la façon de l'intsaller car c'est top ton "ia" :)
Ca serait cool que vous peaufiniez le truc qu'on puisse après genre le télécharger sur son pc, qu'il soit là en arrière plan et qu'on puisse lâcher des "Ok Michelle" un peu comme Cortana qu'est de base sur Widows mais en mieux du coup (parce que c'est quand même bien pourri Cortana)
Sur Android j'ai eu la chance de pouvoir acheter les voix françaises de chez Voxygen qui sont d'excellente qualité. J'ai même la voix du père noël, une voix chantante appelée Mélodine, une voix "chaude" appelée Electra, une voix d'ivoirien, de (faux) texan, etc....
Je vais m'éclater à les utiliser comme assistants personnels 🎉
Chasse au trésor: trouvé l'initiateur de Bec, Beck ou Becka (me souviens plus du nom) l'année de développement (avant Siri et belles autres) et la où il en ai. Llm couches réseau neuronal et cloud système (info: il est en France, cherche pourquoi ou pourquoi quoi?)