【PythonでWebスクレイピング】Beautiful Soupの使い方解説! 〜 初心者向け 〜 プログラミング入門

Поделиться
HTML-код
  • Опубликовано: 15 янв 2025

Комментарии • 53

  • @pythonvtuber9917
    @pythonvtuber9917  3 года назад +41

    [訂正] Soupの読み方を動画では「ソープ」って喋ってるんですが、正しくは「スープ」でした💦

    • @setagayayousei
      @setagayayousei 2 года назад

      @吉和 発音のこと?

    • @kentoo_1
      @kentoo_1 Год назад +1

      不思議の国のアリスの作中に出てくる歌が元になってるみたいです
      おしゃれ命名!

  • @thomasleftwite
    @thomasleftwite Год назад +1

    コンパクトにまとまっていて、かつ実用的な内容でした。
    これで目的のスクレイピングが記述できそうです。
    ありがとうございました。

  • @リカちゃん-b5k
    @リカちゃん-b5k Год назад +1

    今まで見た中で一番分かりやすい!

  • @zeus_labo_japan
    @zeus_labo_japan 4 месяца назад

    素晴らしいね!人工知能に命令させて全く同じコードが出てきたけど、やっぱり意味が理解できないと勝手には動かないよ、解説で本当に素晴らしい知識を手に入れた。

    • @pythonvtuber9917
      @pythonvtuber9917  4 месяца назад +1

      ご視聴ありがとうございます!!
      コードの中身を理解できるとAIが間違ってても自分で直せるし、自分がやりたいことをサクッと作れますよね☺️

  • @user-chiffoncake
    @user-chiffoncake 3 года назад +2

    説明がすごくわかりやすいです

    • @pythonvtuber9917
      @pythonvtuber9917  3 года назад +1

      ありがとうございます😊 自分なりに「わかりやすさ」にこだわって動画を作っているので、そう言っていただけて嬉しいです!!

  • @sun-taro
    @sun-taro 2 года назад +14

    15:18の部分なんですけど、タグがpとなってますが表示されなくて
    サイト確認してみたらh2になってました。
    15:23の7行目 p_tit_tags = soup.find_all('p', class_='tit')
    ここの'p'を'h2'に変えると表示されます
    (これから勉強する方達へ)

    • @pythonvtuber9917
      @pythonvtuber9917  2 года назад +2

      HTMLが変更されたんですね!
      スクレイピングの欠点でもありますね😵
      情報のご共有、有難うございます😊

  • @うえやまごう
    @うえやまごう 2 года назад

    やば!本より全然わかりやすい
    これからお世話になります!
    助かります

    • @pythonvtuber9917
      @pythonvtuber9917  2 года назад

      ご視聴いただいありがとうございます!
      分かりやすさを重視して動画を作っているのでそう言ってもらえて嬉しいです😊

  • @simvx977
    @simvx977 Год назад

    声が可愛いから嬉しい!

  • @営業の魂
    @営業の魂 3 года назад

    最近、よくこちらで勉強させて貰っています。非常に分かりやすく助かっています。

    • @pythonvtuber9917
      @pythonvtuber9917  3 года назад

      ご視聴いただき、ありがとうございます😊
      Python勉強用の動画を沢山アップしているので、お役に立てたら嬉しいです!!

  • @oga1055
    @oga1055 Год назад +1

    動画とても参考になりました!有意義な情報をいつもありがとうございます!
    1点質問なのですが、Jupyter lab でWebスクレイピングした際、日本語部分が文字化けしてしまい。。。。
    これの解消法はございますでしょうか??

  • @lagavulin1968
    @lagavulin1968 3 года назад

    勉強になりました!
    JavaScriptのページをスクレイピングする方法も動画でみたいです!!

    • @pythonvtuber9917
      @pythonvtuber9917  3 года назад +3

      動的にJavaScriptで生成されるWebページもスクレイピングできるように、Seleniumの解説動画も作ろうと考えてます!
      すぐには出せないかもしれませんが、待っていてもらえたら嬉しいです😊

  • @snowchv
    @snowchv Год назад

    すげー

  • @おけけ資格勉強中
    @おけけ資格勉強中 9 месяцев назад +1

    後ろからfor文を修飾することができるとは知りませんでした。
    そこを詳しく開設している動画はございますでしょうか。

    • @pythonvtuber9917
      @pythonvtuber9917  9 месяцев назад

      リスト内包表記のことでしょうか?
      こちらが解説動画です!
      ruclips.net/video/Fj0ejL9Rmr4/видео.html

    • @おけけ資格勉強中
      @おけけ資格勉強中 9 месяцев назад

      @@pythonvtuber9917
      ありがとうございます。
      こちらです!!

  • @tadashinishimine1082
    @tadashinishimine1082 2 года назад

    いつもすごくわかりやすいです。一つ教えて下さい。ボタンを押した時に画面上からでてくる確認ウインドウのOKボタンの属性はどのように調べればいいのでしょうか?

    • @pythonvtuber9917
      @pythonvtuber9917  2 года назад +1

      ご質問ありがとうございます!
      上から出てくる確認ウィンドウとは、具体的にどのようなものでしょうか??動的に生成されている場合はBeautiful Soupじゃなくて、Seleniumを使う必要があるかもしれません。
      Seleniumの動画も出しているので、よければ見てみてください!
      ▶︎ ruclips.net/video/Eu3CojjLQL4/видео.html

    • @tadashinishimine1082
      @tadashinishimine1082 2 года назад

      ご回答ありがとうございます。javascriptによる確認ウインドウのことです。例えば、このページの「保存に失敗しました」の「OK」ボタンです。www.javadrive.jp/javascript/webpage/index1.html

  • @aiチャンネル
    @aiチャンネル 2 года назад

    インポートはどこでするか教えて下さい

    • @pythonvtuber9917
      @pythonvtuber9917  2 года назад

      インポートはファイルの最上部でよろしいかと思います😊

  • @3land454
    @3land454 Год назад

    ターミナルに HTMLを書き出してみると 文字化けしてて全く読めない状態です。
    ためしに クリップボードにpython でコピーして ほかのアプリケーションに張り付けても 文字化けしてしまってる状態です。

  • @伊計寛
    @伊計寛 2 года назад

    サプーさん、いつも動画拝見しているものです。
    URLの取得件ですが,URLのドメインと属性を繋げて正しいURLを表示するには、
    どういう風によろしいでしょうか?
    お手数をおかけしますが、宜しくお願いします🤲

    • @pythonvtuber9917
      @pythonvtuber9917  2 года назад

      すみません、「属性をつなげて正しいURLを表示」というのは、ドメインの後ろにパスをつけたり、リクエストパラメータをつけるといったことでしょうか?
      その辺の話ですと、Twitter APIの時の解説が一番詳しく話している気がするので、よければご覧ください。(他の動画でも解説しているかもしれないのですが、動画が多くなってきて、自分でも把握できておらず...)
      ruclips.net/video/e5gd-QqXmmY/видео.html

  • @杉山喬也-b6d
    @杉山喬也-b6d 4 месяца назад

    UnicodeEncodeError: 'cp932' codec can't encode character '\xe4' in position 165: illegal multibyte sequence
    文字コードの問題どうすりゃいい?

    • @pythonvtuber9917
      @pythonvtuber9917  4 месяца назад

      utf-8で処理することできない感じですかね?

  • @楠木セキト
    @楠木セキト 3 года назад +3

    スクレイピングってサイトがスクレイピング禁止してるのか確認するのがむずい、、、スクレイピング禁止って書いてないのに念のためサイトにメールして確認したらダメって言われた

    • @pythonvtuber9917
      @pythonvtuber9917  3 года назад +3

      スクレイピングがOKかどうかの確認、確かに難しいですよね😵
      サイト運営側としては、一般的にはスクレイピングされるのはデメリットばかりなので、大々的にスクレイピングOKって言ってくれる所はあまりない気がしますね…

  • @アンチョビーノ-k6v
    @アンチョビーノ-k6v 3 года назад +1

    なんだこの感じは。なんかすっごくこの声が聴きたくなってきてしまったww

    • @pythonvtuber9917
      @pythonvtuber9917  3 года назад

      Python動画をたくさんUPしてるので、是非色々見てみてください☺️

    • @物事の本質を見抜く
      @物事の本質を見抜く Год назад

      たしかに、素人でこのボイスなのか?
      それとも、ボイストレーニングかなにかしているのか気になる

  • @視聴コメント用
    @視聴コメント用 2 месяца назад

    10:48 h2タグで囲われたところが見つけられないのですが何か検索方法はありますか?

  • @raizmini7121
    @raizmini7121 3 года назад

    Some segments in the video are stamped not adjacent to each other

  • @伊計寛
    @伊計寛 3 года назад

    サップーさん,いつもpythonコードを勉強させて頂いております。
    リンク先のURL取得に関して、質問がございます。
    AタグにID・classがない場合どのように取得すれば、よろしいでしょうか?

    • @pythonvtuber9917
      @pythonvtuber9917  3 года назад +1

      ご質問ありがとうございます😊
      親の要素、さらに親の要素などにid、classがついているもの見つけて、その要素から、子要素を取得する形で、該当のaタグの要素にアクセスしたら良いかと思います😉
      動画の12:48らへんで説明しているので、ぜひ参考にしてみてください!

  • @ファーブルコーヒー大好き

    本でもやったけどホームページのHTMLが全く別物になっててマジでキツい。h2をfind_allでやっても変な文字しか出ないし。本の時はヤフーニュース変わっててもなんとかやれたけど今回は抽出出来なそう。なんせ大量の変な文字しか出てこないからね_:(´ཀ`」 ∠):。

    • @pythonvtuber9917
      @pythonvtuber9917  2 года назад

      Webスクレイピングは元のHTMLが書き変わると、コードが動かなくなるのが難点ですね😵

    • @ファーブルコーヒー大好き
      @ファーブルコーヒー大好き 2 года назад

      @@pythonvtuber9917 最後の方のdiv id classの抽出でなんとかなったのでよかったです。

  • @noritohonda
    @noritohonda 2 года назад

    収集するデータの内容や利用方法によっては合法でもpixiv論文のように炎上しますし、Librahackの件もあるため、用法用量が問題ないか慎重に検討してから行いたいですね。
    要素を抽出するときはcssセレクタが個人的に好みです。css、jsのquerySelectorと同じ構文で書けるので。

    • @pythonvtuber9917
      @pythonvtuber9917  2 года назад

      そうですね、他者・他企業のデータを利用する際は用途や方法を十分に気をつける必要がありますね。