【650億文字を数えた】コーパス作りの過酷さを、制作者自身が語る【コーパス2】

Поделиться
HTML-код
  • Опубликовано: 25 июл 2024
  • 今回はコーパス言語学の第2回です。「まず文字を数える。書籍の総文字数を知るには?」「怒涛の許可取り3万点」「古書店を駆けずり回り、大量の本を集める」など、「ここが大変だったよBCCWJ」と題して、実際にコーパス作りを行なった丸山岳彦先生がコーパス作りの過酷さを語ります。
    【丸山先生のX】
    / maruyama_take
    【目次】
    00:00 命題:ミニチュアデータベースを作れ
    06:27 1億語の書き言葉とその内訳
    08:10 コーパスのはじまり
    11:27 ここが大変だったよ BCCWJ TOP3
    12:34 第3位 文字数え
    24:23 第2位 実物集め
    32:30 怒涛の許可取り3万点
    39:32 3万冊の購入リストを見る
    42:03 第1位 サンプル作り
    48:51 国語研は理想的スタートアップ
    53:11 コーパスの宿命
    58:52 言語を捉える難しさ
    【参考文献・参照URLへのリンク】
    ◯現代日本語書き言葉均衡コーパス
    clrd.ninjal.ac.jp/bccwj/
    ◯書き言葉コーパス 設計と構築(講座 日本語コーパス 2)
    amzn.to/48CImZT
    ◯講義「日本語の表記―指針と実態―」(柏野和佳子)/言語学レクチャーシリーズ Vol.17
    • 講義「日本語の表記―指針と実態―」(柏野和佳...
    ◯『現代日本語書き言葉均衡コーパス』におけるサンプル構成比の算出法 : 現代日本語書き言葉の文字数調査
    doi.org/10.15084/00002838
    ◯『現代日本語書き言葉均衡コーパス』利用の手引 第1.0版
    doi.org/10.15084/00003227
    【サポーターコミュニティへの加入はこちらから!】
    yurugengo.com/support
    【我々の初の著書『言語沼』はこちら!】
    www.valuebooks.jp/bp/VS005875...
    【実店舗プロジェクト:ゆる学徒カフェ】
    / @yurugakuto
    【姉妹チャンネル:ゆるコンピュータ科学ラジオ】
    / @yurucom
    【Twitterあるよ!】
    ゆる言語学ラジオのTwitterアカウントがあるので、是非フォローしてください!面白語源ネタなどが流れてきてあなたの知識欲が満たされます。
    → / yuru_gengo
    【おたよりフォーム】
    forms.gle/mTGM7A9QNqgjZMgN7
    ※皆様からの楽しいおたよりをお待ちしています!
    【お仕事依頼はこちら!】
    info@pedantic.jp
    【堀元見プロフィール】
    慶應義塾大学理工学部卒。専門は情報工学。WEBにコンテンツを作り散らかすことで生計を立てている。現在の主な収入源は「アカデミックに人の悪口を書くnote有料マガジン」。
    Twitter→ / kenhori2
    noteマガジン→note.com/kenhori2/m/m125fc452...
    個人RUclips→ / @kenhorimoto
    【水野太貴プロフィール】
    名古屋大学文学部卒。専門は言語学。
    某大手出版社で編集者として勤務。言語学の知識が本業に活きてるかと思いきや、そうでもない。
    Twitter→ / yuru_mizuno
    【BGM提供】
    ・フリーBGM・音楽素材MusMus様 musmus.main.jp
    ・OtoLogic様 otologic.jp/
    #コーパス言語学 #ゆる言語学ラジオ_コーパス言語学

Комментарии • 135

  • @yurugengo
    @yurugengo  6 месяцев назад +14

    【参考文献・参照URLへのリンク】
    ◯現代日本語書き言葉均衡コーパス
    clrd.ninjal.ac.jp/bccwj/
    ◯書き言葉コーパス 設計と構築(講座 日本語コーパス 2)
    amzn.to/48CImZT
    ◯講義「日本語の表記―指針と実態―」(柏野和佳子)/言語学レクチャーシリーズ Vol.17
    ruclips.net/video/B1ckyMTqH_s/видео.html
    ◯『現代日本語書き言葉均衡コーパス』におけるサンプル構成比の算出法 : 現代日本語書き言葉の文字数調査
    doi.org/10.15084/00002838
    ◯『現代日本語書き言葉均衡コーパス』利用の手引 第1.0版
    doi.org/10.15084/00003227
    【サポーターコミュニティへの加入はこちらから!】
    yurugengo.com/support

  • @user-lv1xn9zf8c
    @user-lv1xn9zf8c 6 месяцев назад +102

    当時、何の許諾だかよくわからずOKした一人です。あれが何だったのか初めてわかりました。なんかちょっと得した気分です。思い出しついでに探してみたら、その時にいただいたKOTONOHAの図書カードが出てきました。

  • @motojiro
    @motojiro 6 месяцев назад +45

    学部生です。
    BCCWJには大変お世話になりました。
    本当にありがとうございました。

  • @mudaso-heavy-user
    @mudaso-heavy-user 6 месяцев назад +204

    今年も楽しみに待ってました

  • @MMMinMcity
    @MMMinMcity 6 месяцев назад +67

    堀元さんと水野さんが感想からちょっと話が膨らんで雑談っぽくなったとき、一段落したタイミングを絶妙に読んでぱっと話を戻す丸山先生の知的反射神経すごいです。
    入る呼吸がよくて聞いていて気持ちがいいです。❤

  • @gorigorigorillaletitgo
    @gorigorigorillaletitgo 6 месяцев назад +76

    22:14 赤毛連盟です。
    ちなみに辞書筆写してた理由はアリバイ作りではないのでネタバレではありません。

    • @sebakourashima7648
      @sebakourashima7648 6 месяцев назад +2

      書こうと思ったら、先人がおられましたね。書き写していたのはたしか大英百科事典でした。

    • @Gadona143
      @Gadona143 6 месяцев назад +4

      46:00 に出てくるMy hair is red. が赤毛連盟の原著に出てくるかどうかが気になってますw

  • @user-zj6oe1cc1f
    @user-zj6oe1cc1f 6 месяцев назад +41

    米粒を数えたことがある堀元さんでも本の文字数は数えたくないのが面白かったです。

  • @attii2010
    @attii2010 6 месяцев назад +15

    私言語学を志している学生なのですがコーパスには本当にお世話になりました。
    あの網羅性を持ったコーパスがなければ私の研究はうまくいかなかったでしょう。
    このようなコーパスのお話を聞けてとても感激です。
    改めてありがとうございます。

  • @user-xp6pk4cb8t
    @user-xp6pk4cb8t 6 месяцев назад +48

    丸山先生のお声と話し方がとても好きで聞いてて耳が心地いい

    • @user-qv3uc4zk4h
      @user-qv3uc4zk4h 6 месяцев назад +1

      本当に心地良くて丸山先生ずっと話してて欲しい

  • @user-qw5he7xb1g
    @user-qw5he7xb1g 6 месяцев назад +38

    先生が言うBCCWJがちょっと速いの好き

  • @user-jz1yn5rj3h
    @user-jz1yn5rj3h 4 месяца назад +4

    ゆる言語学ラジオはじめてユーチューブで拝見しました。
    私は国語研のコーパス中納言のおかげで卒論が書けました。BCCWJに救われた学部生は数知れずですしこの先もたくさんの人間がお世話になる素晴らしいものだと思います。

  • @user-cu1zl3qv4m
    @user-cu1zl3qv4m 6 месяцев назад +29

    「もしかして1億語集めるの大変だったんですか?」「当たり前だろ」好きw

  • @user-hz1gl6hw6e
    @user-hz1gl6hw6e 6 месяцев назад +62

    こういう辛いときに楽しい動画が見れてよかった

  • @kotokoto8362
    @kotokoto8362 6 месяцев назад +11

    先生の話し方が非常に明解ですごい

  • @unknown_x6
    @unknown_x6 6 месяцев назад +13

    丸山先生の笑顔が素敵ですね

  • @Entre_Degartio
    @Entre_Degartio 6 месяцев назад +24

    うぽつです
    英単語帳6冊に掲載されてる英文でコーパスもどきを作ったことがあるのですが、1冊に丸一日以上かかったのでその規模でも非常に骨が折れたのを覚えています。それを遥かに上回る情報をまとめた先生には感服するばかりです

  • @mi-yagi731
    @mi-yagi731 6 месяцев назад +6

    1人で見ていたのですが妖怪”文字数え”で声を出して笑いました。年末年始自分の時間が無くてRUclips自体見れてなかったのですが、やっぱりゆる言語学ラジオは面白いです。

  • @user-cl9pq3nk3o
    @user-cl9pq3nk3o 6 месяцев назад +15

    途方もない作業量を要求するボケに追いついてくる現実こわい

  • @KD-busan
    @KD-busan 6 месяцев назад +6

    「時代のスナップショットを撮る」って感覚、いいな

  • @KoKKo2000
    @KoKKo2000 6 месяцев назад +2

    お話を聞く過程で、何度も気が遠くなりそうになるお話でした。ほんと地味で単調で重要なお仕事お疲れ様です。

  • @user-zh8gl8ib5q
    @user-zh8gl8ib5q 6 месяцев назад +7

    大量に本を集めるのは楽しそうだけどそれをデータにする苦労考えるとびっくりしちゃう
    集めた本きっかけに何かの趣味始めたとかやけに詳しくなったコンテンツとかもありそう

  • @user-si8bh7jo9t
    @user-si8bh7jo9t 6 месяцев назад +2

    コーパス言語学…、すごく興味あります。
    丸山先生の話し方や声が非常に聴きやすく、内容もとても興味深いものでした。
    今年も地道に聴き続けていきますので、よろしくお願いします。

  • @tempara_01
    @tempara_01 6 месяцев назад +5

    55:16
    「切ない」と「刹那」が同音異義語で、かつ文脈がどちらでも通ってて良い。たぶんクリシェホモフォン

  • @user-tv4dh3oe1z
    @user-tv4dh3oe1z 6 месяцев назад +3

    堀元さんが言ってたコメヌカにいる虫を探すためにコイン精米機を探すというエピソードは多分 宮武貴久先生の
    「したがるオスと嫌がるメスの生物学」ですね。めちゃくちゃ面白い本でしたが意外にこういう生物学の本も読むんですね

  • @46natsumikoba
    @46natsumikoba 6 месяцев назад +1

    今回も面白かったです

  • @tork1a11e
    @tork1a11e 6 месяцев назад +4

    先生の発音がcorpusで、
    堀元さん, 水野さんがコーパス
    なのやっぱ研究って英語主体なんだなって思う。

  • @koi506
    @koi506 6 месяцев назад +6

    国会図書館は国立(国会)図書館で、国民への情報提供サービスがメインであって
    国会に対する提供サービスは一部ということを子どもの頃は知りませんでした。
    「一般人は入れるの?」ってな感じ。

  • @akinaka7543
    @akinaka7543 6 месяцев назад +6

    「デンスケ_(録音機)」でウィキペJに立項されてました。自分もチラリと現物みたこと有った気がします。当時のイイカンジな録音機。

  • @yn3353
    @yn3353 6 месяцев назад +8

    形態素分析のグループの苦悩なんかを聞きたいです。「形容動詞」って合理的じゃなくない?みたいな日本語文法の本質に迫れる知見があるのではないかと感じました。

  • @Sayappk
    @Sayappk 6 месяцев назад +1

    ウィーズリー家みたいな髪色の方の話ですね
    水野さんも丸山先生もピンときていらっしゃらない事が驚きでした

  • @engpc9074
    @engpc9074 6 месяцев назад +4

    新年から蟹のミソみたいなラジオ聞けて幸せです

  • @nekoshiroko9202
    @nekoshiroko9202 6 месяцев назад +13

    漫画コーパスは気になるけど擬音まで入れたら日本語コーパス作るのと同じくらいコストがかかりそう

  • @user-qv3uc4zk4h
    @user-qv3uc4zk4h 6 месяцев назад

    風邪引いてるから画面見なくてもいいの助かる
    気になったとこだけ確認してる

  • @user-dd1ps8xg9w
    @user-dd1ps8xg9w 6 месяцев назад +1

    若い二人はマイクロフィッシュ知らないんだ!、私知ってる〜と、ちょっとうれしくなった。国会図書館で、「この資料は現在マイクロフィッシュ化中のため貸し出しできません」というのがあったな。

  • @keisukesugi5085
    @keisukesugi5085 6 месяцев назад +11

    出版物とかって文字数データベースを発行の段階で作ってくれててもいいのにね

  • @akinaka7543
    @akinaka7543 6 месяцев назад +8

    IT屋がいう「データベース」は大抵がデータベースそのものじゃなくデータベース「マネージメントシステム」のほう…なのだろうなあ。(IT以外の「データベース」というコトバが原義なのだとすれば。)

  • @user-bk5kf2ww2y
    @user-bk5kf2ww2y 6 месяцев назад +2

    立川市図書館が出てきてびっくり!立川在勤なのでよく利用しています。蔵書が豊富で、新刊もすぐ入る素晴らしい図書館ですよね…!

  • @user-vf7hx6mn9d
    @user-vf7hx6mn9d 6 месяцев назад +2

    現在院生ですが、学部生の頃からBCCWJにはお世話になっております

  • @user-of1wb9hn7g
    @user-of1wb9hn7g 6 месяцев назад +4

    もしマンガが調査対象になっていたら、以前Twitterで「自分が作った同人誌は国立国会図書館に納本して永久に遺せる」みたいなのがバズってましたけど、実際に納本しちゃったエロ同人作家の本も国語研究者の目に晒されてたかもしれないかと思うとちょっと面白い。

  • @curote2660
    @curote2660 6 месяцев назад +2

    日本語話し言葉コーパス(CSJ)には学部時代にお世話になりました!

  • @odashideodashi
    @odashideodashi 6 месяцев назад +2

    新年もよろしくお願いします

  • @donburacco
    @donburacco 6 месяцев назад +2

    背景 ホワイトボードのころより視聴しております。
    言葉の収集方法、0次資料から得られる貴重な情報たいへん興味深く拝見しました。
    ところで。歌の歌詞から言葉を採取するようなことはないのでしょうか?
    詩集や歌集も出版された印刷物ですが、歌謡曲などの歌詞まではあつめられないのでしょうか。
    やはり、早々に収集するのは難しいのですかね…

  • @jyozu
    @jyozu 6 месяцев назад +8

    サンプリングにベストセラー(閲覧率?)の重みをつけると、結果はどれくらい変わるのか気になる。

  • @user-ec5yd5xk3l
    @user-ec5yd5xk3l 6 месяцев назад

    楽しい動画をあざす!

  • @user-kl7hd2vv3e
    @user-kl7hd2vv3e 6 месяцев назад

    やっぱ本業と被るだけあって堀本さんと相性良い分野だな

  • @piano_beginner
    @piano_beginner 6 месяцев назад +5

    もしパッパがまた手に入るならこんな人がいいお
    堀〇潤さん似の柔らかい表情と聴き心地のいい声
    エピソードトークおもろ
    今年初笑いでした、オネションマンありがとう。

  • @kap1123
    @kap1123 6 месяцев назад +4

    あぶねえ、ホームズのやつ書き込むところだった💦

  • @cancrow916
    @cancrow916 6 месяцев назад +2

    堀元「ヤバない!?」
    水野「ヤバない悠」
    丸山先生「さて、魅せますか…………ファッ」

  • @hebihenge
    @hebihenge 6 месяцев назад +2

    55:18
    刹那過ぎる

  • @goo4game588
    @goo4game588 5 месяцев назад +1

    27:57
    「詰んでる」のイントネーションが「積んでる」と同じなのって、最近の現象なのか昔から二派いたのか気になる

  • @user-bd7ij9jh3n
    @user-bd7ij9jh3n 6 месяцев назад +3

    漫画も文字はあるし、もっと言えば発行されてない物でも社内文書とか契約書とか、あるいはメモや日記みたいなのも「書き言葉」じゃないかなぁと思った。
    ただ、言語学の対象が「ラング」なのであれば、自分自身が読むためのメモとか日記は含まないのかも知れない。あと、「文章として正しい日本語」として考えるなら、漫画とかはセリフ主体だし、どの部分をサンプリングするか微妙なコマも多そうだから落とすのも仕方ないのかなぁ…?

  • @user-hp6wn2gz4l
    @user-hp6wn2gz4l 6 месяцев назад +1

    本編と関係ないですが、今井むつみ先生が朝日新聞の対談で「アブダクション推論を…」「人気RUclips番組で、子供の面白い言い間違いを…」などと話されていました😊

  • @akinaka7543
    @akinaka7543 6 месяцев назад +2

    そういわれてみれば、納本制度はあるけど、「おのおのの本のデータ(たとえばここでは文字数)」も提出しろというルールではないんですね…

  • @user-zg4wf7ll7z
    @user-zg4wf7ll7z 6 месяцев назад

    そもそも存在を知らなかったけど初めて検索してみて、身近な日本語の疑問を考察するのに使えそうだなと思った
    素人でそう思えたということは研究者にとっては涙が出るほどありがたいんだろうな

  • @akinaka7543
    @akinaka7543 6 месяцев назад +1

    49:05 うんうん。それ。試しに小さいの試作する工程、やらせてもらいたいですよねえ…(IT屋のつぶやき)

  • @user-bd7ij9jh3n
    @user-bd7ij9jh3n 6 месяцев назад +5

    「書かれる文章」と「読まれる文章」は別なんじゃないかと思ったんですが、そういう研究って有るんですか?
    例えば、前回のクイズの「卵・玉子・たまご・タマゴ」の問題で、書かれる文章としては料理本とかで「玉子」って書かれる事が多そうだと思ったんですが、実際に読む中では、料理本で読む文章はごくわずかで、小説とかで読まれる普通の文章では「卵」が多そうだと思いました。

  • @HitYoutube
    @HitYoutube 6 месяцев назад

    「たほいや」放送は1993年だから、BCCJWコーパスに入っていそうですね!

  • @sh8680
    @sh8680 6 месяцев назад +2

    中国の書籍って必ず文字数が奥付に記載してあったんですが、そういえば日本の書籍って、書いてありませんね。

  • @ko-dx5md
    @ko-dx5md 6 месяцев назад +2

    この研究めちゃくちゃ日本語LLMの研究に使えそう

  • @user-my8kh6pc1b
    @user-my8kh6pc1b 6 месяцев назад +1

    著作権は学問の敵だとショーペンハウエルがおっしゃっていた

  • @norirumi8644
    @norirumi8644 6 месяцев назад

    いやぁ大変だなぁ

  • @graph23
    @graph23 6 месяцев назад

    国語研、立川にある…あれか。
    極地研の一般公開展示しているところに行く途中に前を通り過ぎた気がする。

  • @furumichikazuya
    @furumichikazuya 6 месяцев назад +1

    薄い本をコーパスに入れるか議論はなかったようです。

  • @jasminewater7809
    @jasminewater7809 6 месяцев назад +3

    今回の動画を見て、私は喜んで文字の奴隷になりたいと思いました。大好きな文字のお話、大好きな図書館のお話が聞けてとても嬉しかったです。そしてなにより、なんて魅力的な作業(お仕事)…!!文字に触れ文字を集め実際の書籍に触れ、ずっと思考を文字のために費やして会議する…永遠にそんなお仕事が出来たら、タダでも喜んでやりたいくらいです。素人ではありますが、人生を文字に費やしたい、という意味で、文字の奴隷になりたいと思いました。
    ※誤解を避ける為に
    先生やコーパスに携わる方を文字の奴隷だと言うつもりはなく、私がただ研究者でもなんでもない素人として文字の奴隷になりたいっていうドM意見晒してるだけです、すみません

  • @AtatameTanmen
    @AtatameTanmen 6 месяцев назад

    最後のサンプリングについての話
    2001年から2005年の日本の書き言葉全体の実態を波のように考えてみると、その波の特徴の一部を有するページをサンプリングすることで実態を捉えようとしているのだなと思いました。
    ただ、音の波形であれば時間をスパンにサンプリングすればいいですが、今回の場合は何を基準とするスパンでサンプリングすればいいのかわからないためにランダムサンプリングをするのだなと、だとすると1万3000サンプルはどういった根拠のもとなんだろうななどと考えられて興味深かったです。
    また、書き言葉は日常で書くメモやチラシなども含まれている中、新聞や書籍に限定すること自体も一種のサンプリングなのではないかとか、それらを分解して1万3000サンプルを集めるのもサンプリングだし、最後の堀本さんみたいに、作ったコーパス自体を一時代を切り取ったサンプルと考えることもできるなと思ってとても面白かったです

  • @tanaka0404
    @tanaka0404 6 месяцев назад +2

    6:14 大爆笑ポイント

  • @user-jq2hc8fi4l
    @user-jq2hc8fi4l 6 месяцев назад

    冒頭の問に答えてしまうなんてw

  • @shomwoys
    @shomwoys 6 месяцев назад

    言語の基礎研究データですねぇ
    これを元に形態素解析だのLLMだのいろんな技術が進んだはずで、自動化して更新・再生産コストはだいぶ下がってるのかも
    検証コストの方に移行するのかな…

  • @HitYoutube
    @HitYoutube 6 месяцев назад

    58:40 2ヶ月以上以前に録画した動画を今配信している堀元さんに鏡をそっと渡したい!

  • @daiyuki7235
    @daiyuki7235 6 месяцев назад +2

    電子書籍などデータ化されたものが多くなってきているのでデータベースは作りやすくなっている、みたいな単純な話じゃないのが良く分かった

  • @mathpromagy
    @mathpromagy 3 месяца назад

    2人のフェルミ推定が優秀過ぎる!

  • @denhide4626
    @denhide4626 6 месяцев назад

    三省堂のウィズダムに代表されるcorpus-basedの英和辞典がありますが、日本語辞典の現状がどうなっているのか関心があります。

  • @suugakuhakase902
    @suugakuhakase902 6 месяцев назад

    15:48 「~ないべき」という日本語はない と大学の講義で習いました。
    コーパスを参照したいですね

    • @Aros417
      @Aros417 6 месяцев назад

      それはどっかの動画で触れられてた気がする

  • @user-xf9ol3gk2m
    @user-xf9ol3gk2m 6 месяцев назад +1

    16:25 Hunter×Hunterは文字主体なので対象に入れて下さい

  • @----___----___----___----___--
    @----___----___----___----___-- 6 месяцев назад +4

    前回の「卵」「玉子」「たまご」「タマゴ」が、
    どうカウントされたのか知りたいです。
    特に「卵」が(らん)として書かれていても「卵」とカウントすると
    調査の意味をなさないし、用例採取者がこれは(らん)だと勝手に判断する
    のもコーパスとしての正確性が落ちる気もします。

    • @cypher7707
      @cypher7707 6 месяцев назад

      BCCWJで「卵」だけ調べたら9270件で、これは生物学用語が多く含まれる
      前回動画では「卵(たまご)」は3719件
      これならちゃんと考慮してんじゃないの?
      BCCWJ無料版(小納言)しか使ってないから、有料版ならより高度な検索機能があって3719件を引っ張って来れるのかも知れない

    • @cypher7707
      @cypher7707 6 месяцев назад

      BCCWJで「卵」だけ調べたら9270件で、これは生物学用語が多く含まれる
      前回動画では「卵(たまご)」は3719件
      これならちゃんと考慮してんじゃないの?
      BCCWJ無料版(小納言)しか使ってないから、有料版ならより高度な検索機能があって3719件を引っ張って来れるのかも知れない

    • @cypher7707
      @cypher7707 6 месяцев назад

      BCCWJで「卵」だけ調べたら9270件で、これは生物学用語が多く含まれる
      前回動画では「卵(たまご)」は3719件
      これならちゃんと考慮してんじゃないの?
      BCCWJ無料版(小納言)しか使ってないから、有料版ならより高度な検索機能があって3719件を引っ張って来れるのかも知れない

  • @user-km6nv5nq8q
    @user-km6nv5nq8q 6 месяцев назад +1

    1:00 今回フォント いつもと違う感じがする…

  • @user-ht9mv3ag5f
    @user-ht9mv3ag5f 6 месяцев назад +1

    サムネが昔見た餃子の王将のCMみたいに!

  • @beerwit7977
    @beerwit7977 6 месяцев назад +1

    コーパスの狙いにもよると思いますが、サンプリングの重みづけに関しておおよその読者数を掛けるような調整があったほうが普段目にする文章の比率を反映できそうな気がするんですがそういうのは無いんでしょうか

  • @cochizz7643
    @cochizz7643 6 месяцев назад

    堀元さんと水野さんはゆるく喋ってるかんじの喋りだけど丸山先生は伝えるために喋ってるかんじするな
    堀元水野のターンは昼休みに飯食いながら友達が喋ってるのを聴いてる感覚に近くて丸山先生が喋ってる間は講演とかテレビ番組の解説聴いてる感覚

  • @komesoudou88
    @komesoudou88 6 месяцев назад

    21:47 赤毛組合ですね

  • @user-ek5fc3cy5z
    @user-ek5fc3cy5z 6 месяцев назад

    「XページのY文字目」だと、たまたま文字数が少ないページにあたってY文字目がない場合が頻出しそうだけどどうするんだろう?

  • @pascalpaskel
    @pascalpaskel 6 месяцев назад

    国会図書館に納本するときに、全ページをOCRしてデジタルデータとしても納本する、あるいは図書館側でデータ化するとよいのだろうけど、現実的ではないのだろうな。。

  • @takpon9261
    @takpon9261 6 месяцев назад +3

    スキャンしてOCR通すなり、出版社や新聞社から元データの提供を受けるとかできないのか🙄

    • @術中hack
      @術中hack 6 месяцев назад +1

      これ思った。特に新聞社。

    • @HitYoutube
      @HitYoutube 6 месяцев назад +1

      新聞って同じ日も時刻で内容差し替えられてたりするので縮刷版と違う可能性も。

  • @susnum585
    @susnum585 6 месяцев назад +1

    あまりよろしくないと自覚してはいるんですが、先生の声がどうしても呪術〇戦の伊○知潔高(cv.岩○光央)に重なる部分が多く、いつの間にか呪術の世界線で自分がレクチャーされてる気分になってしまった…伊地知さんにコーパス説明されるってどんな世界線?呪霊特殊すぎやろ。

  • @MainFiction
    @MainFiction 6 месяцев назад +3

    ホームズのネタバレ注意
    件の作品は『赤毛連盟 (The Red‐headed League)』ですね。

    • @user-db8lt9rs9q
      @user-db8lt9rs9q 4 месяца назад

      頭が大きいと脳みそが大きく賢いというデマを植え付けられましたね

  • @TKomi
    @TKomi 6 месяцев назад

    バランス良くとってくるために文字数をカウントするの、株式のインデックスで時価総額平均を使っているのに似てるね

  • @user-of9zh4fu7i
    @user-of9zh4fu7i 6 месяцев назад

    25:40 「恣意的」のよくある誤用

  • @setsuna0217
    @setsuna0217 6 месяцев назад

    2020年付近の新しいコーパスは生まれているのでしょうか?

  • @miusuke168
    @miusuke168 3 месяца назад

    これを観ている10代
    羨ましい🎉

  • @user-yy5cr3yi7f
    @user-yy5cr3yi7f 2 месяца назад

    非常に聞きにくい動画でした。先生の体験談がメインなはずが2人の感想や例え話し等が長くて本題の内容が忘れてしまいそうになりそれを機転の効いた先生によって軌道修正されるのを繰り返しで非常に話しの内容が聞き取り理解しにくかったです。

  • @user-my8kh6pc1b
    @user-my8kh6pc1b 6 месяцев назад

    トウモロコシの実

  • @user-qr2je7sb5v
    @user-qr2je7sb5v 3 месяца назад

    全く素人の疑問ですが、第一回の「ら抜きがどれだけ使われているのか」みたいなことを調べるのに、元となるソースは全て平等な重みで扱っていいのでしょうか?
    例えば1人にしか読まれていないYahoo知恵袋の回答とベストセラーの一文は同じ1回と数えて使用頻度の実態を把握できるのでしょうか?

  • @plasoto
    @plasoto 6 месяцев назад +2

    マイクロフィッシュは若者にはピンと来なかったか・・・マイクロフィルムと言えば分かるかも?

    • @HitYoutube
      @HitYoutube 6 месяцев назад +1

      確かフィルム状のマイクロフィルムのコマをアレイ状に沢山並べて1枚の大きな版にしたのがマイクロフィッシュだった気がします。

  • @isseikurokawa8994
    @isseikurokawa8994 6 месяцев назад

    ブラウンコーパスの”ウンコ”の部分

  • @nazo_no_message
    @nazo_no_message 6 месяцев назад +1

    コーパスで年越したのか。

  • @makotoa8794
    @makotoa8794 5 месяцев назад

    インド人を右とかどうなるんだろ?

  • @user-jg4lb7vc3h
    @user-jg4lb7vc3h 6 месяцев назад

    サンプルに誤植とかがあった場合はどうするのでしょうか
    本人が勘違いした誤用なら実態として入れたほうがいいと思いますが、単純な誤字などは、そう使おうとしたわけではないので言語の実態を見るには除外したほうがいいように思います。
    しかし、誤字なのか誤用なのかわからないようなものもあると思うのです。
    この辺りどう対処したのかが気になりました。

  • @DK-333
    @DK-333 6 месяцев назад +1

    黒髪だから大丈夫。

  • @早川眠人
    @早川眠人 6 месяцев назад

    57:10 デジタル化するというのはサンプリングするのではなく量子化すると言わないか?

    • @HitYoutube
      @HitYoutube 6 месяцев назад

      ただ「量子化理論」を「サンプリング理論」とは言うんですよね。

  • @user-uz9ez9zw1m
    @user-uz9ez9zw1m 6 месяцев назад +1

    丸山先生の無駄のない閑話休題スキルにほれぼれ