Vielen Dank für die ausführliche Erklärung von Floatingpointberechnungen. Endlich habe ich es verstanden. Das ist das Beste Video zu dem Thema was ich bisher gesehen habe !
Boah geil, ich konnte kein so ausführliches Video auf Deutsch finden. Das ist genau das, was ich gesucht habe. Ich bin zwar noch am Anfang, aber ich weiß jetzt, dass dieses Video genau das ist, was ich brauchte. Vielen Dank Ihnen! :)
Tolles Video und eine Wahnsinns-Arbeit, die Du auf Deinem Kanal ablieferst. Ich bin echt beeindruckt. Habe seit ca. 4 Wochen ein neues Notebook mit 16-Kern CPU und steige gerade ins Thema der Neuronalen Netze ein. Kanal ist abonniert.^^
3 года назад+1
Das finde ich klasse, vielen Dank! Mit dem Notebook lässt sich schon einiges anstellen, da wünsche ich Dir viel Spaß damit! :)
Год назад
Danke schön freut mich. Wenn die CPU vielleicht sogar eine aktuelle Intel ist und AMX kann (einfach mal den Typ googlen), kann man sehr viel Spaß haben. Vor allem mit z.B. OpenVino
Bei 38:00 Muss dort nicht - 2^(126) stehen? Denn 2^(-126) ist nicht negativ LG
4 года назад
Hallo und danke für den Kommentar :) Tatsächlich ist das so beabsichtigt da es um die Festlegung eines Wertebereichs und nicht um die Darstellung von negativen Zahlen geht. Ganz wichtig(!) ist hier auch der Hinweis auf die Darstellung gemäß IEEE 754, dort werden die Darstellungen von binären Gleitkommazahlen und die Art und Weise wie diese von Rechnern(!) verarbeitet werden, festgelegt. Insofern weniger "echte" Mathematik (wenn man das so sehen möchte) als vielmehr die spezifische Definition und Anwendung der IEEE 754. Es gibt zu diesem Thema auch einen sehr guten Artikel auf Wikipedia (de.wikipedia.org/wiki/IEEE_754), hier wird das nochmal sehr ausführlich erläutert.
@ de.m.wikipedia.org/wiki/IEEE_754 Ihren Link habe ich i.wie nicht aufbekommen (Seite nicht mehr vorhanden) Hm, ok, aber warum steht dann eine 0 in der Mitte, müsste das nicht eine 1 sein?
4 года назад
Die 0 gibt es ebenfalls in der IEEE 754. Es sieht so aus, als ob ein Contentfilter o. ä. den Seitenaufruf bei Dir verhindert. Wenn ich auf den Link oben klicke funktioniert das. Entweder mit einem anderen Gerät probieren (Smartphone?) oder auch bei Google nach IEEE 754 suchen. Da sollte das oben erscheinen. "Mit Null im Exponenten werden die Gleitkommazahl 0 und alle denormalisierten Werte kodiert."
is it technically possible to port FP16 program to use FP32 instructions if source code is available? i'm talking about Deep Face Lab by iperov
4 года назад+1
Hi, in general Frameworks such as Tensorflow or PyTorch are supporting the change of FP16/FP32 operations more or less in an easy way. As of now, I haven't investigated further Deepfake's software and therefore cannot judge in terms of the expected efforts as my main topics are image recognition, video analysis etc. However, there are pros and cons (as always) : FP16 typically could be executed much faster, f. e. some Nvidia GPU's can do it +~50% faster than FP32. Accuracy is better at FP32, (but depending on the use case maybe not really needed). That's the reason why mixed precision is interesting because of faster FP16 operations and high accuracy because of FP32. So, the question is what do you want to achieve with it. Could be worth to step into the source code and make a video about it. But this will take a while, right now I'm working on a new video about Nvidia Jetson with real time object detection. I plan to publish it this month (May). Then let's see. Hope this helps, thank you for your message. Cheers, Udo
@ wow thanks for reply. My only goal is to find out if there is any way to utilize tensor cores in RTX cards to boost speed of training in Deep Face Lab, as far as I have been told by iperov, tensor cores are for FP32 operations where cuda use FP16 and then he said nothing after. My idea was to see if FP32 version can be made to boost training speed, on the other hand there is only few tensor cores in RTX cards compare to couple of thousands of CUDA cores, so im not sure if there is any advantage at all.
4 года назад+1
Hi Ten, understood. I think with a RTX it's tough to use TensorCores as it's just 1/20 compared with a V100. However, depending on the workload it could be worth to give it a try just to see how they perform but I would not expect too much. I have tested a V100, P6000 and GTX 1070 in my lab, of course the V100 is pure fun :) in terms of performance. Let me know about your results, sometimes the way itself is the goal.
@ Thanks for answering. I have no programming language skills and just seen that you are very knowledgeable in this matter. I'm waiting or AMPERE it should give nice boost in training speed even on FP16 thanks to more CUDA.
Vielen Dank für die ausführliche Erklärung von Floatingpointberechnungen. Endlich habe ich es verstanden. Das ist das Beste Video zu dem Thema was ich bisher gesehen habe !
Danke für das Lob, das freut mich! 😊
Danke für deine tolle Arbeit auf dem RUclips Kanal! Das wird viel zu wenig wertgeschätzt.
Vielen Dank für Deinen Kommentar, das freut mich sehr :)
Sehr gut erklärt. Ich freue mich darauf, die nächsten Videos zu sehen.
Vielen Dank. Es kommen weitere, nur spannt mich gerade das aktuelle Thema Generative KI beruflcih stark ein. Aber ist auf dem Radar
Boah geil, ich konnte kein so ausführliches Video auf Deutsch finden. Das ist genau das, was ich gesucht habe. Ich bin zwar noch am Anfang, aber ich weiß jetzt, dass dieses Video genau das ist, was ich brauchte. Vielen Dank Ihnen! :)
Das ist wirklich geil. habe wirklich keine Woerter dazu. einfach Mega
Tolles Video und eine Wahnsinns-Arbeit, die Du auf Deinem Kanal ablieferst. Ich bin echt beeindruckt. Habe seit ca. 4 Wochen ein neues Notebook mit 16-Kern CPU und steige gerade ins Thema der Neuronalen Netze ein. Kanal ist abonniert.^^
Das finde ich klasse, vielen Dank! Mit dem Notebook lässt sich schon einiges anstellen, da wünsche ich Dir viel Spaß damit! :)
Danke schön freut mich. Wenn die CPU vielleicht sogar eine aktuelle Intel ist und AMX kann (einfach mal den Typ googlen), kann man sehr viel Spaß haben. Vor allem mit z.B. OpenVino
Einfach und verständlich erklärt, vielen lieben Dank.
Vielen Dank! :)
Bei 38:00
Muss dort nicht - 2^(126) stehen?
Denn 2^(-126) ist nicht negativ
LG
Hallo und danke für den Kommentar :) Tatsächlich ist das so beabsichtigt da es um die Festlegung eines Wertebereichs und nicht um die Darstellung von negativen Zahlen geht. Ganz wichtig(!) ist hier auch der Hinweis auf die Darstellung gemäß IEEE 754, dort werden die Darstellungen von binären Gleitkommazahlen und die Art und Weise wie diese von Rechnern(!) verarbeitet werden, festgelegt. Insofern weniger "echte" Mathematik (wenn man das so sehen möchte) als vielmehr die spezifische Definition und Anwendung der IEEE 754.
Es gibt zu diesem Thema auch einen sehr guten Artikel auf Wikipedia (de.wikipedia.org/wiki/IEEE_754), hier wird das nochmal sehr ausführlich erläutert.
@
de.m.wikipedia.org/wiki/IEEE_754
Ihren Link habe ich i.wie nicht aufbekommen (Seite nicht mehr vorhanden)
Hm, ok, aber warum steht dann eine 0 in der Mitte, müsste das nicht eine 1 sein?
Die 0 gibt es ebenfalls in der IEEE 754. Es sieht so aus, als ob ein Contentfilter o. ä. den Seitenaufruf bei Dir verhindert. Wenn ich auf den Link oben klicke funktioniert das. Entweder mit einem anderen Gerät probieren (Smartphone?) oder auch bei Google nach IEEE 754 suchen. Da sollte das oben erscheinen.
"Mit Null im Exponenten werden die Gleitkommazahl 0 und alle denormalisierten Werte kodiert."
Huch, gehören die Outtakes 2:13:13 nicht an das Ende des Videos...? :-)
Definitiv! Da hat ein Outtake das Schneiden offenkundig überlebt. Es sei ihm gegönnt :-D
Die Reihenfolge stimmt aber. :-)
is it technically possible to port FP16 program to use FP32 instructions if source code is available? i'm talking about Deep Face Lab by iperov
Hi, in general Frameworks such as Tensorflow or PyTorch are supporting the change of FP16/FP32 operations more or less in an easy way. As of now, I haven't investigated further Deepfake's software and therefore cannot judge in terms of the expected efforts as my main topics are image recognition, video analysis etc. However, there are pros and cons (as always) : FP16 typically could be executed much faster, f. e. some Nvidia GPU's can do it +~50% faster than FP32. Accuracy is better at FP32, (but depending on the use case maybe not really needed). That's the reason why mixed precision is interesting because of faster FP16 operations and high accuracy because of FP32. So, the question is what do you want to achieve with it. Could be worth to step into the source code and make a video about it. But this will take a while, right now I'm working on a new video about Nvidia Jetson with real time object detection. I plan to publish it this month (May). Then let's see. Hope this helps, thank you for your message. Cheers, Udo
@ wow thanks for reply. My only goal is to find out if there is any way to utilize tensor cores in RTX cards to boost speed of training in Deep Face Lab, as far as I have been told by iperov, tensor cores are for FP32 operations where cuda use FP16 and then he said nothing after. My idea was to see if FP32 version can be made to boost training speed, on the other hand there is only few tensor cores in RTX cards compare to couple of thousands of CUDA cores, so im not sure if there is any advantage at all.
Hi Ten, understood. I think with a RTX it's tough to use TensorCores as it's just 1/20 compared with a V100. However, depending on the workload it could be worth to give it a try just to see how they perform but I would not expect too much. I have tested a V100, P6000 and GTX 1070 in my lab, of course the V100 is pure fun :) in terms of performance. Let me know about your results, sometimes the way itself is the goal.
@ Thanks for answering. I have no programming language skills and just seen that you are very knowledgeable in this matter. I'm waiting or AMPERE it should give nice boost in training speed even on FP16 thanks to more CUDA.