【PythonでWebスクレイピング】Beautiful Soupの使い方解説! 〜 初心者向け 〜 プログラミング入門

Поделиться
HTML-код
  • Опубликовано: 4 авг 2024
  • 📘 サプーの書籍が絶賛発売中 📘
    Amazon ▶︎ www.amazon.co.jp/dp/4297142856
    「VTuberサプーが教える! Python 初心者のコード/プロのコード」
    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    Pythonプログラミングに関する情報を発信しているサプーです!
    この動画はPythonでWebスクレイピングする方法・Beautiful Soupの使い方について解説しています。
    ・Webスクレイピングとは?
    ・HTMLとは?
    ・Beautiful Soupの使い方
    これらについて説明しています💙
    実際にPythonコードを動かして実演しているので、最後まで見てもらえたら嬉しいです😊
    💙 メンバーシップ 💙
    説明動画 ▶︎ • 【ご報告】本日からメンバーシップ開始します!...
    登録 ▶︎ / @pythonvtuber9917
    iPhoneの方はこらから ▶︎ PythonSuppl/statu...
    💻 動作環境 💻
    Windows 10
    Python 3.9.0
    ⭐️ チャプター ⭐️
    0:00 今日のテーマ「PythonでWebスクレイピング」
    0:28 Webスクレイピングとは?
    2:09 HTMLとは?
    5:45 HTMLの取得
    8:11 Beautiful Soupの使い方(タグ指定)
    12:47 Beautiful Soupの使い方(子要素)
    14:08 Beautiful Soupの使い方(id, class指定)
    17:46 Beautiful Soupの使い方(属性取得)
    20:24 エンディング
    💜 チャンネル説明 💜
    Pythonプログラミングについて解説するVtuber サプーです✨
    初心者でも分かりやすく、Pythonを体系的に学習できるような動画をアップロードしていきます!
    みんなが少しでもPythonが好きになってくれたら嬉しいな💕
    Twitterもやってるので、フォローお願いします!
    Twitter ▶︎ / pythonsuppl
    メール ▶︎ python.supu.vtuber@gmail.com
    🍊 オレンジページネット 🍊
    www.orangepage.net/
    #Python
    #Webスクレイピング
    #beautifulsoup
    #プログラミング
    #学習
    #勉強
    #初心者
    #入門
    #エンジニア
    #基本
    #パイソン
    #PythonVTuberサプー
  • НаукаНаука

Комментарии • 50

  • @pythonvtuber9917
    @pythonvtuber9917  3 года назад +33

    [訂正] Soupの読み方を動画では「ソープ」って喋ってるんですが、正しくは「スープ」でした💦

    • @user-zs1nq7gv5e
      @user-zs1nq7gv5e 2 года назад

      「U」じゃなくて「A」ですねw

    • @setagayayousei
      @setagayayousei Год назад

      @@user-zs1nq7gv5e 発音のこと?

    • @user-zs1nq7gv5e
      @user-zs1nq7gv5e Год назад +1

      @@setagayayousei yes

    • @kentoo_1
      @kentoo_1 8 месяцев назад +1

      不思議の国のアリスの作中に出てくる歌が元になってるみたいです
      おしゃれ命名!

  • @user-zi9rg2gr5x
    @user-zi9rg2gr5x Год назад +1

    今まで見た中で一番分かりやすい!

  • @thomasleftwite
    @thomasleftwite 6 месяцев назад

    コンパクトにまとまっていて、かつ実用的な内容でした。
    これで目的のスクレイピングが記述できそうです。
    ありがとうございました。

  • @user-chiffoncake
    @user-chiffoncake 3 года назад +2

    説明がすごくわかりやすいです

    • @pythonvtuber9917
      @pythonvtuber9917  3 года назад +1

      ありがとうございます😊 自分なりに「わかりやすさ」にこだわって動画を作っているので、そう言っていただけて嬉しいです!!

  • @user-ky1lc6rv9m
    @user-ky1lc6rv9m 3 года назад

    最近、よくこちらで勉強させて貰っています。非常に分かりやすく助かっています。

    • @pythonvtuber9917
      @pythonvtuber9917  3 года назад

      ご視聴いただき、ありがとうございます😊
      Python勉強用の動画を沢山アップしているので、お役に立てたら嬉しいです!!

  • @user-nx9yx5tf6v
    @user-nx9yx5tf6v 2 года назад

    やば!本より全然わかりやすい
    これからお世話になります!
    助かります

    • @pythonvtuber9917
      @pythonvtuber9917  2 года назад

      ご視聴いただいありがとうございます!
      分かりやすさを重視して動画を作っているのでそう言ってもらえて嬉しいです😊

  • @simvx977
    @simvx977 Год назад

    声が可愛いから嬉しい!

  • @lagavulin1968
    @lagavulin1968 3 года назад

    勉強になりました!
    JavaScriptのページをスクレイピングする方法も動画でみたいです!!

    • @pythonvtuber9917
      @pythonvtuber9917  3 года назад +3

      動的にJavaScriptで生成されるWebページもスクレイピングできるように、Seleniumの解説動画も作ろうと考えてます!
      すぐには出せないかもしれませんが、待っていてもらえたら嬉しいです😊

  • @oga1055
    @oga1055 10 месяцев назад

    動画とても参考になりました!有意義な情報をいつもありがとうございます!
    1点質問なのですが、Jupyter lab でWebスクレイピングした際、日本語部分が文字化けしてしまい。。。。
    これの解消法はございますでしょうか??

  • @snowchv
    @snowchv 7 месяцев назад

    すげー

  • @sun-taro
    @sun-taro 2 года назад +13

    15:18の部分なんですけど、タグがpとなってますが表示されなくて
    サイト確認してみたらh2になってました。
    15:23の7行目 p_tit_tags = soup.find_all('p', class_='tit')
    ここの'p'を'h2'に変えると表示されます
    (これから勉強する方達へ)

    • @pythonvtuber9917
      @pythonvtuber9917  2 года назад +2

      HTMLが変更されたんですね!
      スクレイピングの欠点でもありますね😵
      情報のご共有、有難うございます😊

  • @tadashinishimine1082
    @tadashinishimine1082 2 года назад

    いつもすごくわかりやすいです。一つ教えて下さい。ボタンを押した時に画面上からでてくる確認ウインドウのOKボタンの属性はどのように調べればいいのでしょうか?

    • @pythonvtuber9917
      @pythonvtuber9917  2 года назад +1

      ご質問ありがとうございます!
      上から出てくる確認ウィンドウとは、具体的にどのようなものでしょうか??動的に生成されている場合はBeautiful Soupじゃなくて、Seleniumを使う必要があるかもしれません。
      Seleniumの動画も出しているので、よければ見てみてください!
      ▶︎ ruclips.net/video/Eu3CojjLQL4/видео.html

    • @tadashinishimine1082
      @tadashinishimine1082 2 года назад

      ご回答ありがとうございます。javascriptによる確認ウインドウのことです。例えば、このページの「保存に失敗しました」の「OK」ボタンです。www.javadrive.jp/javascript/webpage/index1.html

  • @user-ht1zp7bg8x
    @user-ht1zp7bg8x Год назад

    サプーさん、いつも動画拝見しているものです。
    URLの取得件ですが,URLのドメインと属性を繋げて正しいURLを表示するには、
    どういう風によろしいでしょうか?
    お手数をおかけしますが、宜しくお願いします🤲

    • @pythonvtuber9917
      @pythonvtuber9917  Год назад

      すみません、「属性をつなげて正しいURLを表示」というのは、ドメインの後ろにパスをつけたり、リクエストパラメータをつけるといったことでしょうか?
      その辺の話ですと、Twitter APIの時の解説が一番詳しく話している気がするので、よければご覧ください。(他の動画でも解説しているかもしれないのですが、動画が多くなってきて、自分でも把握できておらず...)
      ruclips.net/video/e5gd-QqXmmY/видео.html

  • @user-ic1lu9lw4p
    @user-ic1lu9lw4p 4 месяца назад

    後ろからfor文を修飾することができるとは知りませんでした。
    そこを詳しく開設している動画はございますでしょうか。

    • @pythonvtuber9917
      @pythonvtuber9917  4 месяца назад

      リスト内包表記のことでしょうか?
      こちらが解説動画です!
      ruclips.net/video/Fj0ejL9Rmr4/видео.html

    • @user-ic1lu9lw4p
      @user-ic1lu9lw4p 4 месяца назад

      @@pythonvtuber9917
      ありがとうございます。
      こちらです!!

  • @user-km3ej3ck1d
    @user-km3ej3ck1d 2 года назад

    インポートはどこでするか教えて下さい

    • @pythonvtuber9917
      @pythonvtuber9917  2 года назад

      インポートはファイルの最上部でよろしいかと思います😊

  • @3land454
    @3land454 Год назад

    ターミナルに HTMLを書き出してみると 文字化けしてて全く読めない状態です。
    ためしに クリップボードにpython でコピーして ほかのアプリケーションに張り付けても 文字化けしてしまってる状態です。

  • @user-ht1zp7bg8x
    @user-ht1zp7bg8x 2 года назад

    サップーさん,いつもpythonコードを勉強させて頂いております。
    リンク先のURL取得に関して、質問がございます。
    AタグにID・classがない場合どのように取得すれば、よろしいでしょうか?

    • @pythonvtuber9917
      @pythonvtuber9917  2 года назад +1

      ご質問ありがとうございます😊
      親の要素、さらに親の要素などにid、classがついているもの見つけて、その要素から、子要素を取得する形で、該当のaタグの要素にアクセスしたら良いかと思います😉
      動画の12:48らへんで説明しているので、ぜひ参考にしてみてください!

  • @raizmini7121
    @raizmini7121 2 года назад

    Some segments in the video are stamped not adjacent to each other

  • @user-kr3jg7jz6n
    @user-kr3jg7jz6n 3 года назад +2

    スクレイピングってサイトがスクレイピング禁止してるのか確認するのがむずい、、、スクレイピング禁止って書いてないのに念のためサイトにメールして確認したらダメって言われた

    • @pythonvtuber9917
      @pythonvtuber9917  3 года назад +3

      スクレイピングがOKかどうかの確認、確かに難しいですよね😵
      サイト運営側としては、一般的にはスクレイピングされるのはデメリットばかりなので、大々的にスクレイピングOKって言ってくれる所はあまりない気がしますね…

  • @user-nk3hw7di6f
    @user-nk3hw7di6f 2 года назад +1

    なんだこの感じは。なんかすっごくこの声が聴きたくなってきてしまったww

    • @pythonvtuber9917
      @pythonvtuber9917  2 года назад

      Python動画をたくさんUPしてるので、是非色々見てみてください☺️

    • @user-or6bs7fc7y
      @user-or6bs7fc7y Год назад

      たしかに、素人でこのボイスなのか?
      それとも、ボイストレーニングかなにかしているのか気になる

  • @user-fk1zd9jl9l
    @user-fk1zd9jl9l 2 года назад

    本でもやったけどホームページのHTMLが全く別物になっててマジでキツい。h2をfind_allでやっても変な文字しか出ないし。本の時はヤフーニュース変わっててもなんとかやれたけど今回は抽出出来なそう。なんせ大量の変な文字しか出てこないからね_:(´ཀ`」 ∠):。

    • @pythonvtuber9917
      @pythonvtuber9917  2 года назад

      Webスクレイピングは元のHTMLが書き変わると、コードが動かなくなるのが難点ですね😵

    • @user-fk1zd9jl9l
      @user-fk1zd9jl9l 2 года назад

      @@pythonvtuber9917 最後の方のdiv id classの抽出でなんとかなったのでよかったです。

  • @noritohonda
    @noritohonda Год назад

    収集するデータの内容や利用方法によっては合法でもpixiv論文のように炎上しますし、Librahackの件もあるため、用法用量が問題ないか慎重に検討してから行いたいですね。
    要素を抽出するときはcssセレクタが個人的に好みです。css、jsのquerySelectorと同じ構文で書けるので。

    • @pythonvtuber9917
      @pythonvtuber9917  Год назад

      そうですね、他者・他企業のデータを利用する際は用途や方法を十分に気をつける必要がありますね。