Googleの根幹になった論文を読む。検索エンジンの解剖。【Google1】#42
HTML-код
- Опубликовано: 28 июл 2024
- 新シリーズ「Googleのアルゴリズム」です。「Googleの始まりはひとつの学術論文」「引用数を数える、というシンプルなアイデア」「使いづらかった検索エンジンを使えるレベルに引き上げた」などGoogleの根幹となったひとつの論文のすごさを話します。
【目次】
00:00 世界4位の企業の根幹になった博士論文
06:52 Googleの始まりとなった論文を読もう
09:31 論文のすごさはやはり「アルゴリズム」
11:25 Webページの仕分けは途方もない作業
14:53 シンプルなアイデア、偉大な論文
21:53 いにしえの検索エンジンには司書がいない
26:31 被リンク数は「いいページ」の指標
31:41 被リンク数の重大な欠陥
35:14 救世主登場
【参考文献】
○The anatomy of a large-scale hypertextual Web search engine
snap.stanford.edu/class/cs224...
→タネになった論文。フルバージョンでなく簡易版。数式はほとんど出てこず、割と楽しんで読めてすごい。
○世界でもっとも強力な9のアルゴリズム
amzn.to/3yHh8BR
→何度も参考文献に挙げているおもろ本。おもしろアルゴリズムに触れて、巧妙なトリックに快い驚きを感じたい方はどうぞ。
【サポーターコミュニティ加入はこちらから】
yurugengo.com/support
【親チャンネル:ゆる言語学ラジオ】
/ @yurugengo
【フランチャイズプロジェクト:ゆる学徒ハウス】
/ @yurugakuto
【おたよりフォーム】
forms.gle/BLEZpLcdEPmoZTH4A
※皆様からの楽しいおたよりをお待ちしています!
【お仕事依頼はこちら!】
yurugengo@gmail.com
【堀元見プロフィール】
慶應義塾大学理工学部卒。専門は情報工学。WEBにコンテンツを作り散らかすことで生計を立てている。現在の主な収入源は「アカデミックに人の悪口を書くnote有料マガジン」。
Twitter→ / kenhori2
noteマガジン→note.com/kenhori2/m/m125fc452...
個人RUclips→ / @kenhorimoto
【水野太貴プロフィール】
名古屋大学文学部卒。専門は言語学。
某大手出版社で編集者として勤務。言語学の知識が本業に活きてるかと思いきや、そうでもない。
#Google #ゆるコンピュータ科学ラジオ
【参考文献】
○The anatomy of a large-scale hypertextual Web search engine
snap.stanford.edu/class/cs224w-readings/Brin98Anatomy.pdf
→タネになった論文。フルバージョンでなく簡易版。数式はほとんど出てこず、割と楽しんで読めてすごい。
○世界でもっとも強力な9のアルゴリズム
amzn.to/3yHh8BR
→何度も参考文献に挙げているおもろ本。おもしろアルゴリズムに触れて、巧妙なトリックに快い驚きを感じたい方はどうぞ。
【サポーターコミュニティ加入はこちらから】
yurugengo.com/support
【おたよりフォーム】
forms.gle/BLEZpLcdEPmoZTH4A
※皆様からの楽しいおたよりをお待ちしています!
昔、しょうもないホームページつくってyahooに登録したら、「こんなカスページつくって登録するんじゃねえ」という公式のお叱りメールが返ってきたことがある。
オノマトペの小野先生、便研究の辨野先生に並んで、数学界隈にはベクトル場の矢野(vector field)先生がいます
矢野さんは外国人研究者に苗字である矢野の意味を尋ねられたときにこの話をしたら信じてもらえなかったらしいです。
完全に素晴らしい知識…!
「水銀」を検索したら「清水銀行」が出てきたりしました。
水野さんにとっては、堀元さんのページランクが最も高いとわかる尊い動画
罰ゲームだったはずの堀元さんのデジタルタトゥーさらっと出してて毎回笑う
堀元さんの黒歴史のページランクがどんどん上がってますね
ザッカーバーグが当初作ったサービス、今なら炎上するとおっしゃってましたが、当時も炎上してました。
一昔前、まだディレクトリ型の検索エンジンがあった時代に、中学校の情報の授業で「googleなどは危険なサイトが表示される可能性があるので、yahooを使いなさい」なんて言われていました
冒頭で水野さんがリンクを思いついていて「ものすごい台本ブレイク来たな…」とひやひやしましたが、何故か彼方へ飛んで行って安心しました。
人の黒歴史って本人は恥ずかしいけど、結局周りからしたら結構なチャームポイントなんだよな。
何冊引用しているかで信用を図ろうとするのが、水野さんは「専門家」ではなく「読書家」なんだなって伝わってくる。参考・引用論文が書かれているページが分厚い本は中身もしっかりしていますものね...
Excel苦手マンなのに循環参照パッと出てくるの凄い
既出かもしれませんが、20:52 からの人名と功績などが一致するような現象はaptronym(アプトロニム)(ja.wikipedia.org/wiki/-onym)ですね。
以前アクロニムやバクロニムの話が出たときにwikiで見かけたものです。
被引用数を使うアイデア、循環等の問題を解決する数学的解析、実際に数億あるページのランクを計算する分散コンピューティングと
どの工程も鮮やかでいつ思い返してもため息が出る
Google前ってサイト作ったら各検索エンジンに検索されるように登録申請みたいなのしてた記憶
30:16
ここでの堀元さんの黒歴史が水野さんに循環参照という気づきを与えたのでは?
かつては、検索エンジンよりも個人的なリンク集ページや相互リンクが力を持っていたので、検索エンジンありきの世界観ではなかったです
ただ、著名なエンジンに載ることは名誉でした
WWWの誕生秘話みたいなのを昔NHKスペシャルで観ましたが、たしか、CERNの科学者たちが、互いの論文を読みやすいように共通のフォーマットで保存し、引用先へ簡単にアクセスできるようにリンクさせたというのが始まりだったかと思います。ハイパーリンクというのがそもそも論文の引用だったんですね。
35:00 あと論文だと、引用は時系列にそって行われるので循環参照の問題は基本的に発生しないですね
後から発表された論文を引用することは普通あり得ない
25:15 25:15 noteを作った深津さんなら、ランキング上位の記事しか出回らない状態を避けるためにあえてやってそうですね
クリシェの星出さんしか知らなかったので、小野先生と辨野先生を咄嗟に出せる水野さんと堀元さんのアンテナの張り方に感動。
S&P500のプアー(Poor)さんみたいな逆バージョンも蒐集したくなりますね。
掛け合いのシンクロ度が日に日に増してて漫才みたいで好き
オノマトペの小野先生,便研究の辨野先生,言語学なら「のだ文」の野田春美先生も有名。あと多義語などの「多義」の研究者タギー(Divid Tuggy)とか。
昔にWebマーケティング業者を選ぶ時に、雑談でそれとなくページランクの話題を振って反応を観察してた。
良い業者と言うか、熱心な担当者はあの論文は一回は見てるんだよな。
楽しみに待ってました
浅学にしてこの論文知らなかったんだけど、聞きながら予想したら割と当たって楽しかったな
Googleのことをよくしらない劣等感を煽られる素晴らしいラジオ
ビジネス関連からっきし
0:24 去来って聞いたの、オドぜひの「息子が若林になりたがっている」以来だよ…
めちゃくちゃ面白かったし今回のエンディングめちゃくちゃ上手かったです。
次回も楽しみにしてます😊
Pagerankは実用的にも数理的にも素晴らしいアルゴリズムだし、GFSとかBigtableらへんもすばらしい。Googleがアカデミア出身ということを強く表していると思う。
こじき的旅行記のリンクは何で貼ってないんですか?
貼っていいですか?
Googleと生まれた日が同じだったので話題作りのために役立ちました!!!!
noteは閲覧数などによるランキングを表示すると低俗な記事が増えてしまうため、運営が人力でチェックしておすすめの記事を出しているらしいです
参考: ruclips.net/video/Wxx91D26qXM/видео.html
Yahooはディレクトリ型でしたね。ロボット型はインフォシークなど。ロボット型はテキスト拾ってるだけでしたね。
そういえば知り合いが昔々にニュースサイトの結果を人力でチェックする仕事をしていました。懐かしいですね。
水野さんより一個上ですが、最初にインターネットに触れた頃(多分2000年くらい?)にはまだYahoo!Japanはディレクトリ型だったように思います
その後数年してネットサーフィンとかをするような頃に「Googleを使え!なぜならページランクという仕組みで…」みたいな新書とかムック本がいっぱい出てきた覚えがありますね
線形代数の講義で固有値の話のときに応用として挙げられた思い出
古のホームページで「相互リンク募集!」みたいなのあったけどそういう事なのね
21:24 宇宙飛行士になるための苗字「星出」、理科で有名になるための理科雄」
私はディレクトリ階層時代から知ってる世代なのですが、現在、この名残がブログの管理に残っていると感じています。例えば、和食に関するブログを作ろうと思ったら、最初に「生活→料理→和食」みたいな階層を選ばされますよね。昔は「なんか和食のホームページってないのかなぁ」と思ったら、そういう記事を管理しているサイトのトップページに行って「生活→料理→和食」みたいに辿っていったら発見できるみたいな感じでしたね。しかも、その頃はそもそもホームページの数自体がものすごく少なかったので「探したけどなかった」なんてのはザラでしたし、それに対する不満も別にありませんでした。時代的には、まだ家にパソコンなんてなかったですし、回線を引いている場所自体が、大学とかごくごく一部の企業とかだけだったので、主に大学院生とかが暇つぶしに巡回していただけだったんじゃないですかね。その後、大きくネット環境が変化したのはWindows95が普及してからだと思います。家でパソコンを買って電話回線でネットにつなげるということが比較的安価でできるようになりましたかららね。その後、単語検索ができるようになってgoogle検索が生まれるのですが、google検索に関してはネタバレになりそうなので発言を控えておきます。
ヤフーカテゴリとかあったなあ
「良い論文をまとめて紹介した本」って、ガチな意味なら、たぶん教科書なんよな。
ゆる電脳史学ラジオの出番や
掘虐助かる。
そういえばブログ形式誕生前からサイト間で相互リンクという習わしがあって、それが徐々に否定されていきましたね。
21:24 『砂戦争』って本の著者が石弘之さんってのもシリーズの列の後ろのほうでいいから入れてあげてほしい
簡易版の論文読んでみたけどPageRankの算出方法が面白いな
インド史研究の大家である辛島昇先生は、名前の縁もあってインドのカレー文化に関する書籍もものされています
検索エンジンといえば、当時はyahooが一番使われてたような記憶が
あとはエキサイトとかライコスとかインフォシークとかグーとかいろいろあったなぁ、当時。
いつのまにかグーグル一強になってたけど。
twitterとかの話題のツイートに出すツイートも同じようなアルゴリズム使われてそう
フォロワーの多いアカウントのいいねは重めに計算されるみたいな
ページランクは大量の連立方程式を立てたら計算できそう
ディレクトリ型の時代でも語・文章単位の検索はあったかと。階層を一段ずつ降りていく必要はありません。また、タグ付け的なものもありましたので、綺麗な階層化に拘る必要も無し。
堀元さんと水野さんで作った本
読みたいなぁ
読みたい〜
この本読んだなあ
中身忘れてたけど
「ググる」という言葉が生まれたのも、単にgoogleで検索することのもじりってだけじゃなくて、「Yahoo!!なんかよりgoogleの方がいいぞ」っていうネット民(2ちゃんねらー)の俺らだけ知ってるマウントなところから来てるんですよね
水野さんの「分かります?逆に」って持ちネタにしようとしてるw
むしろgoogleこそが、何でもヒットするけど何が良いか分からない、「がばがば」のイメージだった。それまでは、動画中でも言われているように、yahoo!などのリンク集として整理された者に頼っていたから。(なお用語検索もできたとは思う)
名前と業績で結びつくのは、先崎一(まっさきはじめ)さん。初代統合幕僚長。
21:02
空想科学読本で有名な柳田理科雄先生はペンネームではなく本名、というのも類似例でしょうか
そうか、水野さんディレクトリ型知らないのか、昔のYahooとかはそれだったので個人ブログが検索上位に載るのはニュースであり名誉みたいなところがあった
水野さんの誤答も堀元さんのイジリも、IFに対する文理の認識に違いみたいなものを、ひしひしと感じる
本筋と関係ない情報を吸収するぶんには昔の検索の仕方のほうがお得だったのかも……
相互リンクってそういうことだったのか
21:00 司法権の独立をめぐる論争で有名な浦和事件、被告人は浦和充子、第一審は浦和地裁
35:40 surfsharkさん…?
昔のgooとかYahoo とかディレクトリ型だったのかなぁ…?
検索エンジンのデータ構造がディレクトリ型であることと
実際の検索作業でディレクトリを辿ることは別なんですが
動画は聞き齧りで話してるのでその辺りを混同してますね
1999年くらいからインターネットしてたけどgooとか Yahoo!が主流だったなあ。Googleが一般的になったのは2000年代に入ってから。
お二人に無闇な親近感を覚えるのは、自分から見てリアルな「お兄ちゃん」の歳だからか...
人力検索といえば、はてな
広告がGoogleChrome
キーワード検索やり始めたのはinfoseekじゃない?
Googleってかなり後発だった気がする
iモードってディレクトリ形式だったような
yahooに登録されるのがステータスな時代がありました
ページランクはオシャレだし、「良いページ」と「ラリーペイジ」は韻が一緒
?
将棋のレーティングみたい
ランダムサーフでラジオやってない、多分これがヒントってことやな?!
良質なページのリンクは、良質である。
私には、再生速度を0.75倍にしてちょうど良いくらいでした。
めっちゃ夏服
行列計算で一発なのかと思ってた
数年前まではYahooが一応ディレクトリ検索をサポートしてたハズ
水野さんが『循環参照になっちゃう』と気付いた事に堀元さんが驚いてたけど
大抵の人間は被『引用先の被引用数』と聞いたら「循環するんじゃね?」って気付くと思う
Yahooがポータルサイトでなく検索サイトだった頃は登録型(申請したらYahooが認証して登録する)だったけど、そのくせ、死にリンクが多くて、まったくクロール型に敵わなくなった。ネットの爆発に全く対処できてなかった。
Googleは死んだサイトもキャッシュしてて、見ることができた。
最近のGoogleは昔ヒットしてて今も生きてるけど検索に出てこなくなったサイトとかあるから、信用は落ちてる
(脱線が長いので考察)被参照数が多いページが良いページ?
(視聴後)当たってた…!
(…概要に答えあった)
堀元さんが過去のディレクトリー型の検索エンジンをイメージさせるためにYahooのメニューを最初に出してきたけど、日本にグーグルがやって来る前の主流はYahooのディレクトリー型の検索エンジンだった。
イメージでなく実態がYahooだった。
偶然にしては出来すぎ?
プリンではなくブリンで例えればよかったんだな。
Yahoo!キッズの保健のカテゴリにあったページ読み漁ってた小2の俺。
表紙は黒かった(水野, 2022)。
※くっそどうでも良い話です。
23:58 現実の図書館だと多分こうですね(日本十進分類法(以下NDC)を採用しているものとする)(伊坂さんを知らないのですが内容的に小説っぽい)
おそらく文学なので 900 に行きます。
次に、日本の文学なので 910 に行きます。
文学の中でも小説は 9〇3 になるので 913 に行きます。
さらに現代作家(明治以降)なら 913.6 になります。
で、伊坂さんはイなのでイから始まる作家さんの群を探して行くことになります。
文学(900)>日本文学(910)>日本の小説(913)>日本の明治以降の小説(913.6)>伊坂幸太郎の小説
読書だと図書館学の019に行くので順番に配列している図書館だとめっちゃ離れたところに行きますね。
まあその本がどの主題に属しているのかを考えて配架してるのは人力なんだよねぇ!(古のウェブページの話聞いてて一緒だなと思った)
ほえーあたまいいー
博士論文を何と略すか、は学問分野によるのか地方によるのか・・・? はくろん、ドクろん、Dろん。私の周りは「ドクろん」でした。
野田春美先生のご著書 『「の(だ)」の機能』 くろしお出版
私の院時代は、卒論、修論、ドク論と呼んでた。
なぜか博士だけカタカナ。
なので博論は違和感を覚える。
ま,最近の論文は粗製濫造されてるけどねっ
14:53 「シンプルなアイデア、偉大な論文」はネットワーク系の「単純な法則、複雑な世界」って本のオマージュ?