Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
プロモーション:Notion AINotion は無料で使えて、月額10ドルでNotion AIをご利用いただけます。ntn.so/yurucom1【ことラボ】◯Twitter → x.com/KotoLaboRyo◯RUclips → www.youtube.com/@kotolabo◯「単語ベクトル」とは何か? → ruclips.net/video/l8YCKz15Hn8/видео.html【参考文献】◯大規模言語モデル入門amzn.to/3VKqed7◯キテレツおもしろ自然言語処理amzn.to/3VwInd4◯風俗の虫―捜査官が覗いた日本の風俗70年amzn.to/4bbs62W◯自然言語処理の必須知識!Word2Vec とは?www.kikagaku.co.jp/kikagaku-blog/word2vec/※単語ベクトルの出典◯【入門】深層学習の革命児!Transformer を今こそ理解しようwww.kikagaku.co.jp/kikagaku-blog/deep-learning-transformer/※文脈化単語埋め込みの出典【サポーターコミュニティへの加入はこちらから!】yurugengo.com/support【おたよりフォーム】forms.gle/BLEZpLcdEPmoZTH4A※皆様からの楽しいおたよりをお待ちしています!
このコメントだけ時空超えてる
14:10 ここの話題で「猫吸い」の話が出てこないの逆に驚いた
辞書吸いとかはやっても猫吸いにはほど遠い人たちだから・・・
これが堀元水野ベクトル問題というものでタイプの違う二人だけど守備位置がファーストとサードなので中央を抜ける打球は全スルーしちゃうのです
正解)(堀本∪水野) ̄別解)(ホリモトモリモト) ̄
りょーさんは猫吸いを意図してあの数値にしたけど、違う話題になったから合わせた?
社会人で「基底ベクトル」がすっと出てくるの賢すぎるだろ水野さんってやっぱり理系のセンスあるよ
俺より数学のセンスあるわ
基底って高校数学でやったっけ…?ってレベルだった
ベクトル空間:和とスカラー倍が定義されてる空間→基底を導入してベクトルを基底の1次結合で表す(水野さんの理解)→基底をひと組固定して係数だけを並べることでベクトルを数字の組で「表現」する(堀本さんの理解)今回は水野さんのまぐれ勝ち
17:50次元圧縮後の水野「ゆっくり水野だぜ。僕はマウスができないので諦めるのぜ。」
4:21 水野さんのベクトルの理解が圧倒的に正しかった
理弱数強の底力
高校数学どころかベクトル空間の定義の答えとしてだいぶ100点だと思った
行列で拡張しただけで原義的にはこっちのほうが正しい
これは堀本さんが大学数学に引っ張られて本質を見失ってるよね。
@@SummeryOneMeter大学数学というかコンピュータサイエンスで使う意味に引っ張られてるベクトルは多義語だからなあ理系の中でも分野ごとに意味違う
100次元空間の住民なので、ベクトルは「向きと大きさを持った矢印」で合ってます
仕事で画像認識系の AI モデルを扱ってるんですが、「いい感じになる」の話のところ、すごい共感しました。ディープラーニングにおける誤差逆伝播やら畳み込み処理やらっていうのは、数式で見るとうまくいくことが理解できるんだけど、知らない人向けに分かりやすく説明しようとすると「いい感じになるとしか・・・」ってなりがちなんですよね。そして、泥臭い部分がむしろ本質っていうのも、首が取れるほど頷きました。学習や評価に使うデータ次第で結果が大きく左右されるから、そこを整形するのが結局一番大事だったりしますよね。(そしてこれがまた面倒くさいんだ・・・)
28:30 りょーさん監修回でこち亀両さんを説明無く入れてて、りょーさん風俗通いになってる😂
普段ことラボできちっとしているりょうさんが朗らかな感じになってるの、なんかめっちゃかわいい
ダメだダメだダメだとか、うるさくない程度の顔芸による会話の潤滑剤の役割とか、天の声適正高すぎて素晴らしい
28:35 りょーさんがゲストにいるのに「リアル両さん」はだめでしょ笑笑
りょーさんは風俗にも強いっていう概念
りょーさんと両さんをTransformerが区別してくれるから、きっと大丈夫です
17:50 我々が見ている二人はすでに何者かの手によって次元圧縮されている…
15:00 あたりの水野さん(地球平面論者)の言語化能力がすごい!
「意味」というものは「単語という表現」に与えられるものではなく、コンテキストというフィルターによって確定する、ってのをちゃんとやった、ってことすね「空」がなにを「表す」かは、前に「青」が出ていれば「そら」である可能性が高く、「コップ」が出ていれば「から」である可能性が高く、「経典」であれば「くう」である可能性が高い逆に「青」が出た瞬間に、共起性の高い単語群…というか概念群の確率雲みたいなものがぼやーっとフィルターとしてかかっており、その中で「空」という文字列が出た瞬間に「マッチするのはそらだな」となるこれはある意味「次に来るものの先行予測」であり、予測をそのまま出力するのが「生成」になる「私は」のあとに何が続くかはコンテキストがなければ予測しづらいけど、「ゆる言語学ラジオです。私が」というフィルターをかければ、「パーソナリティ」「堀元」「水野」などが「次にきそうな確率の雲」として浮かび上がるすごい量だし確率もうっすいけど、ニューラルネットの「層」はこれを並列に一気に行列計算できる
0:14 コアラあらざるものですべてもっていかれた12:42 猫×吸引が12出てるの、シャープの掃除機の話だけじゃなく猫吸いの話では?29:10 以前LISTENというポッドキャストプラットフォームの要約で、「野球の話は一切していないのに大谷さん(野球選手とは当然無関係の人)という人について言及しているから野球の話をしているエピソードとみなされてしまった」みたいな話題がありましたね。わたしはPCにそもそも疎い方をお話ししていることが多いので、ディープラーニングとは赤ちゃんにフラッシュ暗算をやらせるような行為、AIとはコンピューターになんとなくこれっていう直感を与える行為だと説明しています。意味を理解しているわけではないので常に正しい言葉を返してくれるとは限らないけど、あまりにもたくさんの事例を見ているのでなんとなくでそこそこ精度の高い情報をあげることができるというのがAIなのかなと。
この動画によって、コアラと徳政の単語ベクトルは歪められたかも
「猫」「吸引」は「猫吸い」のことが主でしょ
動物のモフモフに鼻あててスーハースーハーして楽しむのはコモンセンスじゃないんやで…
プリキュアだって猫吸いする時代なのに・・・
ベクトルの話伸びてて草水野さんが高校数学だけやってあれだけドンピシャな抽象化してたとしたら天才すぎて怖い
6:05 フラットアーサー水野 爆誕の瞬間
28:35 りょーさんコラボ回で風俗に通いまくる人物の例として両さんの名を出すな
18:21 水野さんが話し始めた時堀本が体勢変えるのなんかいい
目ェバッキバキ陰謀論者水野さんが好きすぎてそこだけヘビロテ確定
『風俗の虫』の話の原因、性的な話だからAiが勝手にフィクションにしてる可能性もありそう(ChatGPTはよくやる)
りょーさんの素のキュートさが楽しめて最高でした💛次も楽しみです!
アナログど文系の私には、親近感が湧くシリーズです。専門家すら、なんかいい感じで纏めちゃって、人間がもはや解らないレベルが深層学習なんだー。と、そして意味を理解しようとする学者さんが居るのも面白いです。専門書は読めないけど、たまにchat GDP使うので裏側の仕組みをざっくり楽しく視聴しました。
いい感じで面白かったです!!
42:18 ブラックボックスなのはーー
物理学が11次元でわけわからないのに、言語モデルの1000次元超えは、なんかええ感じに落ち着くのはしょうがないよね。
だいぶ前の、ゆる言語学ラジオで「単語とは、意味のプール上に浮かんだウキのようなもの」という表現と同じですね。意味のプールの上の一点を指し示すベクトルが、単語
11:15 ハリスかファースかどっちかって言われた時の堀元さんの嬉しそうな顔よ
8:50 「これの何が嬉しいかというと」は理系方言という話を以前 X で見かけたのが印象に残ってたんだけど、言ってて嬉しくなっちゃった。(私もよく言う)
41:00 私は「数独パズルを解いてるみたいだなあ」という印象を受けました。確定でこれだという数字は入れられないけれど、仮置きでこのへんの数字が入りそうという予想メモだけ残しておく。という処理を頭からお尻までまずやる。そのあと、前回の予想メモを参照しながら仮置きの数字を置く処理をもう一度頭からお尻まで行なうと、予想メモの精度が上がる。予想メモの精度を上げ続けると、突如ある地点で数字が確定する。ある地点の数字が確定すると連鎖的に次の地点の数字も確定する。単語ベクトルも仮置きの予想メモの精度を高めると、ある段階で突如『確定する手掛かり』が見つかったりするのかな?
単語をノードとしたグラフを最適輸送で比較して、「日本語グラフの中の『リンゴ』という単語の位置」と「英語グラフの中の『Apple』という単語の位置」を比べることで言語間の単語の対応(≒翻訳)を行うっていう発表をしていた人が学会でいたな。単語ベクトルの話とかなり近そう。
ルンバが掃除機よりペット寄りであることが値で見えるってことは非生物のアニマシー度合いが見えるようになりそうですね
27:30 このメモ、中島敦の 文字禍 かと思ったら円城塔の 文字渦 ですね自分もよく間違いそうになるけどw
2:03 りょーさんのビックリ顔6:05 水野さんのバッキバキ顔
5:45 ここも間違ってる。実ベクトルを考えてるわけじゃなければk(a, b)=(ka, kb)が成り立たなくてもベクトル空間の公理自体は満たすから、「球面上のスカラー倍」が定義されていれば問題ない(マイナスの北緯が定義できれば水野さんの直観は極めて正しい)。ベクトル空間の定義を見れば分かる通り、数値の組で表されるからと言ってベクトルとは限らないし、ベクトルだからと言って何かしらの要素の組で表されるとは限らない。つまりベクトルにとって「数値の組で表されること」は全く本質的ではない。堀元さんやスタッフはレベルの低い教科書の導入として出てくる「実ベクトル」の性質に引っ張られているだけで、数学的なベクトルの定義を理解できていない。堀元さんよりも水野さんの方が理解が(どちらかといえば)正しいことを言っているのに無知な道化として扱われているのがグロテスク。堀元さんには、数学科の1年生が読むような線型代数学の教科書のベクトル(≠実ベクトル)の定義を読んでほしい。
ここで言うベクトルはベクトル空間じゃなくて、コンピューターサイエンスが良く扱うR^nの事だからそうなってると思う
数学とコンピュータサイエンスをごっちゃにしすぎないように慎重にならないとね
@@天才の証明 何言ってるんですか?R^nはベクトルではありませんよ。R^nはベクトルではなくベクトル空間の具体例の一種です。あなたは(i)ベクトルとベクトル空間を混同している,(ii)概念と具体例を混同している,という2つの勘違いをしています。
@@ssusp どういうことですか?
@@sanagirace 分かってるよベクトル空間は多項式とか多種多様な物を含む事ぐらいねただ、そこまで厳密にやるのは数学科だからであって、他の学部だとそこら辺良い加減で良いのも多い(物理学者がよくやる、全ての関数はテイラー展開出来るみたいなのと似た感じ)コンピューターサイエンスでは基本扱いやすいR^nで統一してる感じなのかも簡単に言うと、数学のノリは多分野で出すと偶に空気読めないと思われるからきを付けて
26:15 ChatGPTが人とヒトをうまいこと使い分けて話してくれるのはそういうことだったのか
37:15 単語の解釈を文脈に最適化する処理だと理解した。水野さんの疑問は「対象の単語の本質を見失うなうのでは?」だと解釈した。人間も単語の定義を詳らかにしなくても(ベクトルを完全に固定しなくても)会話出来るので、人間を再現したAIとしては妥当な振る舞いに思う。
水野さんと同じく文系で、ベクトル概念の解像度が水野さんと同じだった者です。GPT-4が出たての頃、ゲンロンのチャンネルで元ドワンゴの清水亮が内部の仕組みについて解説してたけど、「ベクトルの外積をひたすら重ねがけし続けることによって、重みづけが変わる」みたいなところでチンプンカンプンになり挫折したんで、改めて手前から説明してもらえて助かりました。外積すら知らなかったので「外積するということは、つまりどういうことなんだろう」とばかり考えていたが、おれがまず考えるべきだったのはベクトルの定義だったのが気づけてよかった。これでもうちょいなんとかなりそう。
数字の組は直積集合の元のこと(順序対)のことであってベクトルのことではないですねベクトルは体(実数や複素数など)上で和とスカラー倍の操作が出来てベクトル空間の公理を満たす集合の元のことなので
楽しみに待ってました
奇遇ですね、僕もです🌷
たのまち
ぼくも!
球面上だとしても和をうまく定義すればベクトル空間になりそう
どうすれば内積定義できるかな
三人とも仲良しだな
『プロモーション:Notion AI』が概要欄にチラ見えする中でことラボとシャープの掃除機ダイマするの勇気がありすぎる
篩を使って粉を分けると少し目が詰まったり歪んでしまうけど、何故かその方がいい感じに振り分けることができるイメージですかね、目が揃っていると2種類にしか分けられないが、色々な大きさの目があると小さいのから順に落ちるので使いやすい。何かいい感じといえばパイを捏ねる時ですかね。
34:35 でも確かに、一口に「猫」と言っても、動物の猫を指してる時と、ぬいぐるみの猫を指してる時と、絵の猫を指してる時と、アニメとかに出てくるちょっと人間っぽい猫を指してる時とで扱いって微妙に変わるから、周りの単語から推測して、色々調整かけてるってことなのかな?絵画の猫と言ってもいろんなスタイルで描かれた猫があるし、猫のキャラクターだってリアルなものからほとんど人間みたいなのもあるわけで、それって全部ちょっとずつ意味合い変わってくるもんなぁ。動物の猫でも、ペット、野良猫、保護猫、家畜化、セレブの飾り物とか、色々な文脈で出てくるし、その全部でニュアンスを汲み取ってる感じなのかな……
いい感じにおもしろかったです
Transformerは入力→エンコード→出力(デコード)だから、入力→出力というワンステップで考えると水野さんのような疑問が出てくるのかな?犬という単語ベクトルの初期値は入力段階ではどのような文章でも同じ値だけどエンコーダ部分を通すことで犬という単語とその文章中の他の全単語との関係性を計算して良い感じの値に更新するから出力部に渡す時には文章ごとに初期値の犬とは違う値になってる
フラットアースで目バキになる流れでクッソ笑った
41:21 なんとなく家の掃除をするときにフライパンはこの棚のこの鍋の下とか一撃で決めるんじゃなくて、まずはキッチン用品はキッチンに、工具は工具箱の近くに、文房具はリビングに集めるみたいにザックリ仕分けをして、段階を踏んで物をあるべき場所に確定させていくようなものかなと。「空(から・そら)」は文房具とも工具とも取れる定規を「これは長くて工作のときに使いがちだから工具」「これは短くてノートに線を引くときに使うから文房具」って感じで用途や場面で決めるような感じかなと。言語もコンピュータも素人ですが、、
14:37 SHARPのエアコン掃除しながらここ聞いてた
組成意味論での対義語の話は空間ベクトルなら点対称で行うか、面対称で行うかの違いと同じですね。
りょーさんの方が適任そうという意見に、明るく上段で返す堀元さん。上手いね。秩序って大事だからね。いろいろミスが合って一番重要なところを的確にやってる感じ。
猫・吸引は猫吸い?
猫吸いかチュール
「ベクトルとは複数の数字の組」ではなく「AIの話で使うベクトルとは複数の数字の組」ということですね。政略の話に出てくる「(腹に)いちもつ」と猥談の時に出てくる「いちもつ」で意味が違うのと同じですね!
「ことらぼりょうさん」が居るのに、「こちかめりょうさん」の話しをするのは、今回の趣旨に合っているのだろう。
緯度経度を要素とする球座標系のベクトルの足し算は、半径を一定として簡単にすれば回転に対応して同じ領域内(球面上)で収まると直観的に思ったのですがどうなんでしょう?
矢印が地球の曲面に沿って曲がってて、それを繋げる演算って感じですかね?経度と緯度にこだわる場合は、緯度方向の平行移動によって矢印の大きさを変えないといけないので、これが「尺度」としてベクトルの第三成分になってしまうと思います(尺度は初期値座標に従属して緯度経度の双方に影響を与えるので2階テンソルと見ても良いかもしれません)。経度緯度にこだわらず、球面上の2方向(成す角が緯度により不変)であれば、複雑な仕掛け無しに接ベクトル空間として定義できそうです。
6:23 初‼︎水野さんが動画上でしっかりとメガネを外した瞬間‼︎
43:05 言語学を学んでいない多くの人類にとっては、単語の意味も文法も、他者との会話や読書を経て、経験の蓄積によって“いい感じに”習得している点で、AIと変わらないのでは?と思いました。
水野さんと堀元さんを次元圧縮したのがりょーさん
次元圧縮っていうのは、線形代数でやる固有ベクトルや固有空間の話なのかな。最初に仮定した1,000個の基底ベクトルが綺麗に独立していればそれ以上圧縮できないけど、重複する部分があれば固有ベクトルの数は減って、次元が落とせるってことかな?
ブラックボックスを解析しようとする試みもあるんだ……WIREDみたいなりょーさん待ってます!
理系の大学を出ましたが、「ベクトルとは複数の数字の組」という定義は納得感がないですね複数の数字の組はベクトルの表現方法の一つに過ぎなくて、ベクトルと捉えるのはおかしい複数の数字の組がありそうです例えば「フィボナッチ数列の1番目から5番目までの数字の組」等
プログラマーにとってはそれもベクトルです
ベクトルはラテン語のvehere運ぶ 由来なので向きと量が本質であって、数字の組があればベクトル空間で分析ができるようになるというはなしでは…(迂闊なこと書かない方がいいかな…
21:10「大輪教授」っていう芸人さんのネタで構成要素を素因数分解して全然違うものが残るっていうのが大好きだったの思い出した
単語ベクトルのあたりで一緒に使われる単語の話があったが、このはなしでグーグルの検索エンジンの良い参照を出すためにループさせたり、一定確率でジャンプしたりするスキームが使えそうだと思った。
博士号専門家「いい感じになります」
難しすぎておまじないとして「いい感じ」に使っているのかと言うと、学習した結果「いい感じ」に収まるって事で機械としては本質を捉えたけど人間には理解出来てないって事なんだよねぇ。
堀元さんのベクトル理解、結局数ベクトルから逃れられて無いのにアップデートされた表現だと勘違いしてるの学部2年くらいのイキり理系大学生味が合って良い。なんなら水野さんの方が正しい理解。
なお線形代数を学んだ大学生ならベクトルとはベクトル空間の元でありベクトル空間とは環R上の加群のうちRが体の場合の、、、とか話し始めるはず
数学科なので同じく体の元による左からの演算が上手く定義された加群…と説明したくなりますが、非数学科でも線形代数で数ベクトルでないベクトルを扱うのでしょうか?
数学科だけやろ
まあ実ベクトル空間と一般のベクトル空間を混同してる節はあるよね
2:31 クッソ似てるwww
自分を形作るのは外界との境界みたいなアイデンティティの考え方があるけど、単語を形成するのも周りの単語であるってことだな。その単語そのものの分析を深めてもナンセンスな感じがよい。
うまく言語化できないし誤ってるかもだけど、単語の深層学習って、単語それぞれのベクトルが最初は幅がある形でその中を揺れている状態で、階層を重ねるたびに幅が小さくなっていって、一般的に運用可能な公差に落ち着かせるというイメージなのかなぁ
味付けの例えなのに調味料じゃなくて香辛料ばっかり使うの料理に対する認識の浅さが滲んでて好き
“言葉を定義するための言葉”を定義しようとするとマトリョーシカになっちゃうから、定義づけの代わりに数を与えて空間的計算を与えよう、ってことか〜。かしこ。
本動画のコメント欄における「堀」の遷移確率は元(57%)、本(43%)(n=7、本コメントは除く)※2024年6月23日14時47分現在
儀が真をうわまわる!
@@fourfiveone5968データ数が増えて真が偽をうわまりました。
水野さんそのままメガネ外した状態でゆる天の収録行って!今地球が丸いのが通説というか当たり前の事実ってのたまってるふたりがいるから!早く!
水野さんが丸顔すぎて球体説加速する可能性ありますよ!
水野さんが一般的に陰謀論と呼ばれているものを語ってる時の雰囲気ホント好き。
毎回面白過ぎて慕い過ぎの結果、二人のイケメンっぷりに見惚れてしまい、理解の邪魔になる いい感じの味付けで学習した結果でしょうね
りょーさん大規模言語モデル回が終わってもずっと左上にいてほしい
文脈化単語埋め込みについて 空(そら)と空(くう)が同じラベルの別の単語として登録されていて、ラベルだけではどちらか分からないために、わざわざ総当たりを行って、隣接する単語と関連性が高い方を選択しているという認識でいいのだろうか。別の漢字を当てていればこんな苦労はしなかったのに。(漢文における「君」とかどう処理しているのだろうか。) そのような単語は、明瞭な単語に比べて計算量が単純に倍増するため、もし、AIがエネルギー事情をわきまえるようになったら、こういった単語を淘汰するかもしれない。その場合は煩わしい単語の多義性を駆逐するようになるため、詩的な文章をスクリーン上へ送り出す機会が減るのかもしれない。逆に考えると、人間は言語の煩わしさによって脳のエネルギーレベルが上がっているのかもしれない。(と思ったが、ミクロとマクロでエネルギー効率の逆転が起きそうな気がする。)
周りの情報をベクトルに混ぜる、これは非12平均律の音楽等における旋律や和声の音高(音程)の取り決めでも似たことをしていると思います直前周辺の音高からの関係性が重要だったりします音律もAIを使えればさらに洗練させられるんだろうなと思いました
最初りょーさんが手振ったあと表情変えないでちょっとだけ手振る水野さんめちゃくちゃかわいかった
正しいラベル付けとか、イレギュラー因子へ追加ラベルするとか、学習結果への正誤判定みたいな途方もない作業だろうね
ベクトルについて、間違った理解の堀元さんが、正しい理解の水野さんを誤った方向に正していて、悲しいですね
作った人も挙動が把握できてないのすごいですね。自分で作った物の挙動を自分で調べるのはエンジニアリングのどの分野でもありますが、それにしてもすごいですね。
りょーさんへの直接の質問を妨害する堀元さん、あちこちにいる謎の仲介業者みたいで好き
単語を人間が選定する時も多層的な処理を無意識にしていい感じに選ぶのでかなりニューラルネットワーク的なのでは。人間も意味と音を混ぜて詩的な表現をしたりするわけですし。
人間を指して小規模言語モデルって言うのおもしろいw
>「コップ」が出たら「から」、「青い」が出たら「そら」「この青いコップは空です」「このコップの青は空です(空の色)」
話聞けば聞くほど産まれてこのかた自分らの学習方法も大規模言語モデルと変わらないんじゃないかなって気がする。その人を形作るものもまた周囲の異なる人達との対比で成り立ってるうんぬんみたいな話と一緒か。
多義語の解釈につきましては、人間が前提知識なしに 電話の受話器からながれてくる講演会の説明音声をきいて、内容を判別理解するのに似てるのかもしれませんね。前後の内容から、あ、この同音異義語は、この意味で使ってるんだな、っていうのを前後の説明の範囲を段階的に広げていくことで正しく理解できる可能性を高める。みたいな。
人間もほとんどの単語は辞書的説明でなく用例で学習してるし、大人になってから発覚する派手な勘違いは出てくる文脈が一致し過ぎてたりする。
神経回路を真似してみたら何故かはよく分からないけど「いい感じ」の出力が出たので活用している、というのがニューラルネットワークという理解でいいですか?
16:11 水野さん、ねこも散歩が必要だと思ってることが判明
「空色の空のコップに空色の液体を注ぎ水面に空を映した」これの読みをchatGPTに聞いたら「そらいろのそらのからのコップにそらいろのえきたいをそそぎ、みなもにそらをうつした」になったまだ少し難しいらしい
味付けのたとえのせいで正確性が影響を受けるくだり、ゆる学習学ラジオのドヒャー型ストラテジーを思い出した。
和の結合律交換律、スカラー演算の結合律ベクトルとの相互の分配律、単位・零・逆元の存在
Bitter Lesson か。むかし、カナダの国会の議事録(英語、フランス語両方で記述)をベースにした翻訳の事例(議事録上の単語を統計的に見ているだけで、辞書も文の構文解析にしていないのにうまい翻訳ができた)を聞いた後は、翻訳ソフト開発者の言で「あとは、辞書の整備ができれば、人間の通訳と同等となります」は、「やっぱりねぇ」と思った。
25:59 お話を伺っての愚察ですが、単語ベクトルで 「ねこ」+「カタカナ」=「ネコ」の計算式が成り立つのかなと想像しました“類義語”とされている単語同士のベクトルの差が気になります
プロモーション:Notion AI
Notion は無料で使えて、月額10ドルでNotion AIをご利用いただけます。
ntn.so/yurucom1
【ことラボ】
◯Twitter → x.com/KotoLaboRyo
◯RUclips → www.youtube.com/@kotolabo
◯「単語ベクトル」とは何か? → ruclips.net/video/l8YCKz15Hn8/видео.html
【参考文献】
◯大規模言語モデル入門
amzn.to/3VKqed7
◯キテレツおもしろ自然言語処理
amzn.to/3VwInd4
◯風俗の虫―捜査官が覗いた日本の風俗70年
amzn.to/4bbs62W
◯自然言語処理の必須知識!Word2Vec とは?
www.kikagaku.co.jp/kikagaku-blog/word2vec/
※単語ベクトルの出典
◯【入門】深層学習の革命児!Transformer を今こそ理解しよう
www.kikagaku.co.jp/kikagaku-blog/deep-learning-transformer/
※文脈化単語埋め込みの出典
【サポーターコミュニティへの加入はこちらから!】
yurugengo.com/support
【おたよりフォーム】
forms.gle/BLEZpLcdEPmoZTH4A
※皆様からの楽しいおたよりをお待ちしています!
このコメントだけ時空超えてる
14:10 ここの話題で「猫吸い」の話が出てこないの逆に驚いた
辞書吸いとかはやっても猫吸いにはほど遠い人たちだから・・・
これが堀元水野ベクトル問題というものでタイプの違う二人だけど守備位置がファーストとサードなので中央を抜ける打球は全スルーしちゃうのです
正解)(堀本∪水野) ̄
別解)(ホリモトモリモト) ̄
りょーさんは猫吸いを意図してあの数値にしたけど、違う話題になったから合わせた?
社会人で「基底ベクトル」がすっと出てくるの賢すぎるだろ
水野さんってやっぱり理系のセンスあるよ
俺より数学のセンスあるわ
基底って高校数学でやったっけ…?ってレベルだった
ベクトル空間:和とスカラー倍が定義されてる空間
→基底を導入してベクトルを基底の1次結合で表す(水野さんの理解)
→基底をひと組固定して係数だけを並べることでベクトルを数字の組で「表現」する(堀本さんの理解)
今回は水野さんのまぐれ勝ち
17:50
次元圧縮後の水野「ゆっくり水野だぜ。僕はマウスができないので諦めるのぜ。」
4:21 水野さんのベクトルの理解が圧倒的に正しかった
理弱数強の底力
高校数学どころかベクトル空間の定義の答えとしてだいぶ100点だと思った
行列で拡張しただけで原義的にはこっちのほうが正しい
これは堀本さんが大学数学に引っ張られて本質を見失ってるよね。
@@SummeryOneMeter大学数学というかコンピュータサイエンスで使う意味に引っ張られてる
ベクトルは多義語だからなあ
理系の中でも分野ごとに意味違う
100次元空間の住民なので、ベクトルは「向きと大きさを持った矢印」で合ってます
仕事で画像認識系の AI モデルを扱ってるんですが、「いい感じになる」の話のところ、すごい共感しました。
ディープラーニングにおける誤差逆伝播やら畳み込み処理やらっていうのは、数式で見るとうまくいくことが理解できるんだけど、
知らない人向けに分かりやすく説明しようとすると「いい感じになるとしか・・・」ってなりがちなんですよね。
そして、泥臭い部分がむしろ本質っていうのも、首が取れるほど頷きました。
学習や評価に使うデータ次第で結果が大きく左右されるから、そこを整形するのが結局一番大事だったりしますよね。(そしてこれがまた面倒くさいんだ・・・)
28:30 りょーさん監修回でこち亀両さんを説明無く入れてて、
りょーさん風俗通いになってる😂
普段ことラボできちっとしているりょうさんが朗らかな感じになってるの、なんかめっちゃかわいい
ダメだダメだダメだとか、うるさくない程度の顔芸による会話の潤滑剤の役割とか、天の声適正高すぎて素晴らしい
28:35 りょーさんがゲストにいるのに「リアル両さん」はだめでしょ笑笑
りょーさんは風俗にも強いっていう概念
りょーさんと両さんをTransformerが区別してくれるから、きっと大丈夫です
17:50 我々が見ている二人はすでに何者かの手によって次元圧縮されている…
15:00 あたりの水野さん(地球平面論者)の言語化能力がすごい!
「意味」というものは「単語という表現」に与えられるものではなく、コンテキストというフィルターによって確定する、ってのをちゃんとやった、ってことすね
「空」がなにを「表す」かは、前に「青」が出ていれば「そら」である可能性が高く、「コップ」が出ていれば「から」である可能性が高く、「経典」であれば「くう」である可能性が高い
逆に「青」が出た瞬間に、共起性の高い単語群…というか概念群の確率雲みたいなものがぼやーっとフィルターとしてかかっており、その中で「空」という文字列が出た瞬間に「マッチするのはそらだな」となる
これはある意味「次に来るものの先行予測」であり、予測をそのまま出力するのが「生成」になる
「私は」のあとに何が続くかはコンテキストがなければ予測しづらいけど、「ゆる言語学ラジオです。私が」というフィルターをかければ、「パーソナリティ」「堀元」「水野」などが「次にきそうな確率の雲」として浮かび上がる
すごい量だし確率もうっすいけど、ニューラルネットの「層」はこれを並列に一気に行列計算できる
0:14 コアラあらざるものですべてもっていかれた
12:42 猫×吸引が12出てるの、シャープの掃除機の話だけじゃなく猫吸いの話では?
29:10 以前LISTENというポッドキャストプラットフォームの要約で、「野球の話は一切していないのに大谷さん(野球選手とは当然無関係の人)という人について言及しているから野球の話をしているエピソードとみなされてしまった」みたいな話題がありましたね。
わたしはPCにそもそも疎い方をお話ししていることが多いので、ディープラーニングとは赤ちゃんにフラッシュ暗算をやらせるような行為、AIとはコンピューターになんとなくこれっていう直感を与える行為だと説明しています。意味を理解しているわけではないので常に正しい言葉を返してくれるとは限らないけど、あまりにもたくさんの事例を見ているのでなんとなくでそこそこ精度の高い情報をあげることができるというのがAIなのかなと。
この動画によって、コアラと徳政の単語ベクトルは歪められたかも
「猫」「吸引」は「猫吸い」のことが主でしょ
動物のモフモフに鼻あててスーハースーハーして楽しむのはコモンセンスじゃないんやで…
プリキュアだって猫吸いする時代なのに・・・
ベクトルの話伸びてて草
水野さんが高校数学だけやってあれだけドンピシャな抽象化してたとしたら天才すぎて怖い
6:05 フラットアーサー水野 爆誕の瞬間
28:35 りょーさんコラボ回で風俗に通いまくる人物の例として両さんの名を出すな
18:21 水野さんが話し始めた時堀本が体勢変えるのなんかいい
目ェバッキバキ陰謀論者水野さんが好きすぎてそこだけヘビロテ確定
『風俗の虫』の話の原因、性的な話だからAiが勝手にフィクションにしてる可能性もありそう(ChatGPTはよくやる)
りょーさんの素のキュートさが楽しめて最高でした💛次も楽しみです!
アナログど文系の私には、親近感が湧くシリーズです。専門家すら、なんかいい感じで纏めちゃって、人間がもはや解らないレベルが深層学習なんだー。と、そして意味を理解しようとする学者さんが居るのも面白いです。専門書は読めないけど、たまにchat GDP使うので裏側の仕組みをざっくり楽しく視聴しました。
いい感じで面白かったです!!
42:18 ブラックボックスなのはーー
物理学が11次元でわけわからないのに、言語モデルの1000次元超えは、なんかええ感じに落ち着くのはしょうがないよね。
だいぶ前の、ゆる言語学ラジオで「単語とは、意味のプール上に浮かんだウキのようなもの」という表現と同じですね。
意味のプールの上の一点を指し示すベクトルが、単語
11:15 ハリスかファースかどっちかって言われた時の堀元さんの嬉しそうな顔よ
8:50 「これの何が嬉しいかというと」は理系方言という話を以前 X で見かけたのが印象に残ってたんだけど、言ってて嬉しくなっちゃった。(私もよく言う)
41:00
私は「数独パズルを解いてるみたいだなあ」という印象を受けました。
確定でこれだという数字は入れられないけれど、仮置きでこのへんの数字が入りそうという予想メモだけ残しておく。という処理を頭からお尻までまずやる。
そのあと、前回の予想メモを参照しながら仮置きの数字を置く処理をもう一度頭からお尻まで行なうと、予想メモの精度が上がる。
予想メモの精度を上げ続けると、突如ある地点で数字が確定する。ある地点の数字が確定すると連鎖的に次の地点の数字も確定する。
単語ベクトルも仮置きの予想メモの精度を高めると、ある段階で突如『確定する手掛かり』が見つかったりするのかな?
単語をノードとしたグラフを最適輸送で比較して、「日本語グラフの中の『リンゴ』という単語の位置」と「英語グラフの中の『Apple』という単語の位置」を比べることで言語間の単語の対応(≒翻訳)を行うっていう発表をしていた人が学会でいたな。単語ベクトルの話とかなり近そう。
ルンバが掃除機よりペット寄りであることが値で見えるってことは非生物のアニマシー度合いが見えるようになりそうですね
27:30
このメモ、中島敦の 文字禍 かと思ったら円城塔の 文字渦 ですね
自分もよく間違いそうになるけどw
2:03 りょーさんのビックリ顔
6:05 水野さんのバッキバキ顔
5:45 ここも間違ってる。実ベクトルを考えてるわけじゃなければk(a, b)=(ka, kb)が成り立たなくてもベクトル空間の公理自体は満たすから、「球面上のスカラー倍」が定義されていれば問題ない(マイナスの北緯が定義できれば水野さんの直観は極めて正しい)。ベクトル空間の定義を見れば分かる通り、数値の組で表されるからと言ってベクトルとは限らないし、ベクトルだからと言って何かしらの要素の組で表されるとは限らない。つまりベクトルにとって「数値の組で表されること」は全く本質的ではない。
堀元さんやスタッフはレベルの低い教科書の導入として出てくる「実ベクトル」の性質に引っ張られているだけで、数学的なベクトルの定義を理解できていない。堀元さんよりも水野さんの方が理解が(どちらかといえば)正しいことを言っているのに無知な道化として扱われているのがグロテスク。堀元さんには、数学科の1年生が読むような線型代数学の教科書のベクトル(≠実ベクトル)の定義を読んでほしい。
ここで言うベクトルはベクトル空間じゃなくて、コンピューターサイエンスが良く扱うR^nの事だからそうなってると思う
数学とコンピュータサイエンスをごっちゃにしすぎないように慎重にならないとね
@@天才の証明 何言ってるんですか?R^nはベクトルではありませんよ。R^nはベクトルではなくベクトル空間の具体例の一種です。あなたは(i)ベクトルとベクトル空間を混同している,(ii)概念と具体例を混同している,という2つの勘違いをしています。
@@ssusp どういうことですか?
@@sanagirace
分かってるよ
ベクトル空間は多項式とか多種多様な物を含む事ぐらいね
ただ、そこまで厳密にやるのは数学科だからであって、他の学部だとそこら辺良い加減で良いのも多い(物理学者がよくやる、全ての関数はテイラー展開出来るみたいなのと似た感じ)
コンピューターサイエンスでは基本扱いやすいR^nで統一してる感じなのかも
簡単に言うと、数学のノリは多分野で出すと偶に空気読めないと思われるからきを付けて
26:15 ChatGPTが人とヒトをうまいこと使い分けて話してくれるのはそういうことだったのか
37:15 単語の解釈を文脈に最適化する処理だと理解した。
水野さんの疑問は「対象の単語の本質を見失うなうのでは?」だと解釈した。
人間も単語の定義を詳らかにしなくても(ベクトルを完全に固定しなくても)会話出来るので、人間を再現したAIとしては妥当な振る舞いに思う。
水野さんと同じく文系で、ベクトル概念の解像度が水野さんと同じだった者です。
GPT-4が出たての頃、ゲンロンのチャンネルで元ドワンゴの清水亮が内部の仕組みについて解説してたけど、
「ベクトルの外積をひたすら重ねがけし続けることによって、重みづけが変わる」
みたいなところでチンプンカンプンになり挫折したんで、改めて手前から説明してもらえて助かりました。
外積すら知らなかったので「外積するということは、つまりどういうことなんだろう」とばかり考えていたが、おれがまず考えるべきだったのはベクトルの定義だったのが気づけてよかった。
これでもうちょいなんとかなりそう。
数字の組は直積集合の元のこと(順序対)のことであってベクトルのことではないですね
ベクトルは体(実数や複素数など)上で和とスカラー倍の操作が出来てベクトル空間の公理を満たす集合の元のことなので
楽しみに待ってました
奇遇ですね、僕もです🌷
たのまち
ぼくも!
球面上だとしても和をうまく定義すればベクトル空間になりそう
どうすれば内積定義できるかな
三人とも仲良しだな
『プロモーション:Notion AI』が概要欄にチラ見えする中でことラボとシャープの掃除機ダイマするの勇気がありすぎる
篩を使って粉を分けると少し目が詰まったり歪んでしまうけど、何故かその方がいい感じに振り分けることができるイメージですかね、目が揃っていると2種類にしか分けられないが、色々な大きさの目があると小さいのから順に落ちるので使いやすい。
何かいい感じといえばパイを捏ねる時ですかね。
34:35 でも確かに、一口に「猫」と言っても、動物の猫を指してる時と、ぬいぐるみの猫を指してる時と、絵の猫を指してる時と、アニメとかに出てくるちょっと人間っぽい猫を指してる時とで扱いって微妙に変わるから、周りの単語から推測して、色々調整かけてるってことなのかな?
絵画の猫と言ってもいろんなスタイルで描かれた猫があるし、猫のキャラクターだってリアルなものからほとんど人間みたいなのもあるわけで、それって全部ちょっとずつ意味合い変わってくるもんなぁ。
動物の猫でも、ペット、野良猫、保護猫、家畜化、セレブの飾り物とか、色々な文脈で出てくるし、その全部でニュアンスを汲み取ってる感じなのかな……
いい感じにおもしろかったです
Transformerは
入力→エンコード→出力(デコード)
だから、
入力→出力というワンステップで考えると水野さんのような疑問が出てくるのかな?
犬という単語ベクトルの初期値は入力段階ではどのような文章でも同じ値だけど
エンコーダ部分を通すことで犬という単語とその文章中の他の全単語との関係性を計算して
良い感じの値に更新するから出力部に渡す時には文章ごとに初期値の犬とは違う値になってる
フラットアースで目バキになる流れでクッソ笑った
41:21 なんとなく家の掃除をするときにフライパンはこの棚のこの鍋の下とか一撃で決めるんじゃなくて、まずはキッチン用品はキッチンに、工具は工具箱の近くに、文房具はリビングに集めるみたいにザックリ仕分けをして、段階を踏んで物をあるべき場所に確定させていくようなものかなと。
「空(から・そら)」は文房具とも工具とも取れる定規を「これは長くて工作のときに使いがちだから工具」「これは短くてノートに線を引くときに使うから文房具」って感じで用途や場面で決めるような感じかなと。
言語もコンピュータも素人ですが、、
14:37 SHARPのエアコン掃除しながらここ聞いてた
組成意味論での対義語の話は
空間ベクトルなら
点対称で行うか、面対称で行うかの違いと同じですね。
りょーさんの方が適任そうという意見に、明るく上段で返す堀元さん。上手いね。秩序って大事だからね。いろいろミスが合って一番重要なところを的確にやってる感じ。
猫・吸引は猫吸い?
猫吸いかチュール
「ベクトルとは複数の数字の組」ではなく「AIの話で使うベクトルとは複数の数字の組」ということですね。
政略の話に出てくる「(腹に)いちもつ」と猥談の時に出てくる「いちもつ」で意味が違うのと同じですね!
「ことらぼりょうさん」が居るのに、「こちかめりょうさん」の話しをするのは、今回の趣旨に合っているのだろう。
緯度経度を要素とする球座標系のベクトルの足し算は、半径を一定として簡単にすれば回転に対応して同じ領域内(球面上)で収まると直観的に思ったのですがどうなんでしょう?
矢印が地球の曲面に沿って曲がってて、それを繋げる演算って感じですかね?
経度と緯度にこだわる場合は、緯度方向の平行移動によって矢印の大きさを変えないといけないので、これが「尺度」としてベクトルの第三成分になってしまうと思います(尺度は初期値座標に従属して緯度経度の双方に影響を与えるので2階テンソルと見ても良いかもしれません)。
経度緯度にこだわらず、球面上の2方向(成す角が緯度により不変)であれば、複雑な仕掛け無しに接ベクトル空間として定義できそうです。
6:23 初‼︎水野さんが動画上でしっかりとメガネを外した瞬間‼︎
43:05 言語学を学んでいない多くの人類にとっては、単語の意味も文法も、他者との会話や読書を経て、経験の蓄積によって“いい感じに”習得している点で、AIと変わらないのでは?と思いました。
水野さんと堀元さんを次元圧縮したのがりょーさん
次元圧縮っていうのは、線形代数でやる固有ベクトルや固有空間の話なのかな。
最初に仮定した1,000個の基底ベクトルが綺麗に独立していればそれ以上圧縮できないけど、重複する部分があれば固有ベクトルの数は減って、次元が落とせるってことかな?
ブラックボックスを解析しようとする試みもあるんだ……
WIREDみたいなりょーさん待ってます!
理系の大学を出ましたが、「ベクトルとは複数の数字の組」という定義は納得感がないですね
複数の数字の組はベクトルの表現方法の一つに過ぎなくて、ベクトルと捉えるのはおかしい複数の数字の組がありそうです
例えば「フィボナッチ数列の1番目から5番目までの数字の組」等
プログラマーにとってはそれもベクトルです
ベクトルはラテン語のvehere運ぶ 由来なので向きと量が本質であって、数字の組があればベクトル空間で分析ができるようになるというはなしでは…(迂闊なこと書かない方がいいかな…
21:10
「大輪教授」っていう芸人さんのネタで
構成要素を素因数分解して全然違うものが残るっていうのが大好きだったの思い出した
単語ベクトルのあたりで一緒に使われる単語の話があったが、このはなしでグーグルの検索エンジンの良い参照を出すためにループさせたり、一定確率でジャンプしたりするスキームが使えそうだと思った。
博士号専門家「いい感じになります」
難しすぎておまじないとして「いい感じ」に使っているのかと言うと、学習した結果「いい感じ」に収まるって事で
機械としては本質を捉えたけど人間には理解出来てないって事なんだよねぇ。
堀元さんのベクトル理解、結局数ベクトルから逃れられて無いのにアップデートされた表現だと勘違いしてるの学部2年くらいのイキり理系大学生味が合って良い。
なんなら水野さんの方が正しい理解。
なお線形代数を学んだ大学生ならベクトルとはベクトル空間の元でありベクトル空間とは環R上の加群のうちRが体の場合の、、、
とか話し始めるはず
数学科なので同じく体の元による左からの演算が上手く定義された加群…と説明したくなりますが、非数学科でも線形代数で数ベクトルでないベクトルを扱うのでしょうか?
数学科だけやろ
まあ実ベクトル空間と一般のベクトル空間を混同してる節はあるよね
2:31 クッソ似てるwww
自分を形作るのは外界との境界みたいなアイデンティティの考え方があるけど、単語を形成するのも周りの単語であるってことだな。
その単語そのものの分析を深めてもナンセンスな感じがよい。
うまく言語化できないし誤ってるかもだけど、単語の深層学習って、単語それぞれのベクトルが最初は幅がある形でその中を揺れている状態で、階層を重ねるたびに幅が小さくなっていって、一般的に運用可能な公差に落ち着かせるというイメージなのかなぁ
味付けの例えなのに調味料じゃなくて香辛料ばっかり使うの料理に対する認識の浅さが滲んでて好き
“言葉を定義するための言葉”を定義しようとするとマトリョーシカになっちゃうから、定義づけの代わりに数を与えて空間的計算を与えよう、ってことか〜。かしこ。
本動画のコメント欄における
「堀」の遷移確率は
元(57%)、本(43%)
(n=7、本コメントは除く)
※2024年6月23日14時47分現在
儀が真をうわまわる!
@@fourfiveone5968データ数が増えて真が偽をうわまりました。
水野さんそのままメガネ外した状態でゆる天の収録行って!
今地球が丸いのが通説というか当たり前の事実ってのたまってるふたりがいるから!早く!
水野さんが丸顔すぎて球体説加速する可能性ありますよ!
水野さんが一般的に陰謀論と呼ばれているものを語ってる時の雰囲気ホント好き。
毎回面白過ぎて慕い過ぎの結果、二人のイケメンっぷりに見惚れてしまい、理解の邪魔になる いい感じの味付けで学習した結果でしょうね
りょーさん大規模言語モデル回が終わってもずっと左上にいてほしい
文脈化単語埋め込みについて
空(そら)と空(くう)が同じラベルの別の単語として登録されていて、ラベルだけではどちらか分からないために、わざわざ総当たりを行って、隣接する単語と関連性が高い方を選択しているという認識でいいのだろうか。別の漢字を当てていればこんな苦労はしなかったのに。(漢文における「君」とかどう処理しているのだろうか。)
そのような単語は、明瞭な単語に比べて計算量が単純に倍増するため、もし、AIがエネルギー事情をわきまえるようになったら、こういった単語を淘汰するかもしれない。その場合は煩わしい単語の多義性を駆逐するようになるため、詩的な文章をスクリーン上へ送り出す機会が減るのかもしれない。逆に考えると、人間は言語の煩わしさによって脳のエネルギーレベルが上がっているのかもしれない。(と思ったが、ミクロとマクロでエネルギー効率の逆転が起きそうな気がする。)
周りの情報をベクトルに混ぜる、これは非12平均律の音楽等における旋律や和声の音高(音程)の取り決めでも似たことをしていると思います
直前周辺の音高からの関係性が重要だったりします
音律もAIを使えればさらに洗練させられるんだろうなと思いました
最初りょーさんが手振ったあと表情変えないでちょっとだけ手振る水野さんめちゃくちゃかわいかった
正しいラベル付けとか、イレギュラー因子へ追加ラベルするとか、学習結果への正誤判定みたいな途方もない作業だろうね
ベクトルについて、間違った理解の堀元さんが、正しい理解の水野さんを誤った方向に正していて、悲しいですね
作った人も挙動が把握できてないのすごいですね。
自分で作った物の挙動を自分で調べるのはエンジニアリングのどの分野でもありますが、それにしてもすごいですね。
りょーさんへの直接の質問を妨害する堀元さん、あちこちにいる謎の仲介業者みたいで好き
単語を人間が選定する時も多層的な処理を無意識にしていい感じに選ぶのでかなりニューラルネットワーク的なのでは。
人間も意味と音を混ぜて詩的な表現をしたりするわけですし。
人間を指して小規模言語モデルって言うのおもしろいw
>「コップ」が出たら「から」、「青い」が出たら「そら」
「この青いコップは空です」「このコップの青は空です(空の色)」
話聞けば聞くほど産まれてこのかた自分らの学習方法も大規模言語モデルと変わらないんじゃないかなって気がする。
その人を形作るものもまた周囲の異なる人達との対比で成り立ってるうんぬんみたいな話と一緒か。
多義語の解釈につきましては、人間が前提知識なしに 電話の受話器からながれてくる講演会の説明音声をきいて、内容を判別理解するのに似てるのかもしれませんね。前後の内容から、あ、この同音異義語は、この意味で使ってるんだな、っていうのを前後の説明の範囲を段階的に広げていくことで正しく理解できる可能性を高める。みたいな。
人間もほとんどの単語は辞書的説明でなく用例で学習してるし、大人になってから発覚する派手な勘違いは出てくる文脈が一致し過ぎてたりする。
神経回路を真似してみたら何故かはよく分からないけど「いい感じ」の出力が出たので活用している、というのがニューラルネットワークという理解でいいですか?
16:11 水野さん、ねこも散歩が必要だと思ってることが判明
「空色の空のコップに空色の液体を注ぎ水面に空を映した」
これの読みをchatGPTに聞いたら
「そらいろのそらのからのコップにそらいろのえきたいをそそぎ、みなもにそらをうつした」
になった
まだ少し難しいらしい
味付けのたとえのせいで正確性が影響を受けるくだり、ゆる学習学ラジオのドヒャー型ストラテジーを思い出した。
和の結合律交換律、スカラー演算の結合律ベクトルとの相互の分配律、単位・零・逆元の存在
Bitter Lesson か。
むかし、カナダの国会の議事録(英語、フランス語両方で記述)をベースにした翻訳の事例
(議事録上の単語を統計的に見ているだけで、辞書も文の構文解析にしていないのにうまい翻訳ができた)を聞いた後は、
翻訳ソフト開発者の言で「あとは、辞書の整備ができれば、人間の通訳と同等となります」は、「やっぱりねぇ」と思った。
25:59 お話を伺っての愚察ですが、
単語ベクトルで
「ねこ」+「カタカナ」=「ネコ」
の計算式が成り立つのかなと想像しました
“類義語”とされている単語同士のベクトルの差が気になります