【PythonでWebスクレイピング】Beautiful Soupの使い方解説! 〜 初心者向け 〜 プログラミング入門
HTML-код
- Опубликовано: 4 авг 2024
- 📘 サプーの書籍が絶賛発売中 📘
Amazon ▶︎ www.amazon.co.jp/dp/4297142856
「VTuberサプーが教える! Python 初心者のコード/プロのコード」
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Pythonプログラミングに関する情報を発信しているサプーです!
この動画はPythonでWebスクレイピングする方法・Beautiful Soupの使い方について解説しています。
・Webスクレイピングとは?
・HTMLとは?
・Beautiful Soupの使い方
これらについて説明しています💙
実際にPythonコードを動かして実演しているので、最後まで見てもらえたら嬉しいです😊
💙 メンバーシップ 💙
説明動画 ▶︎ • 【ご報告】本日からメンバーシップ開始します!...
登録 ▶︎ / @pythonvtuber9917
iPhoneの方はこらから ▶︎ PythonSuppl/statu...
💻 動作環境 💻
Windows 10
Python 3.9.0
⭐️ チャプター ⭐️
0:00 今日のテーマ「PythonでWebスクレイピング」
0:28 Webスクレイピングとは?
2:09 HTMLとは?
5:45 HTMLの取得
8:11 Beautiful Soupの使い方(タグ指定)
12:47 Beautiful Soupの使い方(子要素)
14:08 Beautiful Soupの使い方(id, class指定)
17:46 Beautiful Soupの使い方(属性取得)
20:24 エンディング
💜 チャンネル説明 💜
Pythonプログラミングについて解説するVtuber サプーです✨
初心者でも分かりやすく、Pythonを体系的に学習できるような動画をアップロードしていきます!
みんなが少しでもPythonが好きになってくれたら嬉しいな💕
Twitterもやってるので、フォローお願いします!
Twitter ▶︎ / pythonsuppl
メール ▶︎ python.supu.vtuber@gmail.com
🍊 オレンジページネット 🍊
www.orangepage.net/
#Python
#Webスクレイピング
#beautifulsoup
#プログラミング
#学習
#勉強
#初心者
#入門
#エンジニア
#基本
#パイソン
#PythonVTuberサプー Наука
[訂正] Soupの読み方を動画では「ソープ」って喋ってるんですが、正しくは「スープ」でした💦
「U」じゃなくて「A」ですねw
@@user-zs1nq7gv5e 発音のこと?
@@setagayayousei yes
不思議の国のアリスの作中に出てくる歌が元になってるみたいです
おしゃれ命名!
今まで見た中で一番分かりやすい!
コンパクトにまとまっていて、かつ実用的な内容でした。
これで目的のスクレイピングが記述できそうです。
ありがとうございました。
説明がすごくわかりやすいです
ありがとうございます😊 自分なりに「わかりやすさ」にこだわって動画を作っているので、そう言っていただけて嬉しいです!!
最近、よくこちらで勉強させて貰っています。非常に分かりやすく助かっています。
ご視聴いただき、ありがとうございます😊
Python勉強用の動画を沢山アップしているので、お役に立てたら嬉しいです!!
やば!本より全然わかりやすい
これからお世話になります!
助かります
ご視聴いただいありがとうございます!
分かりやすさを重視して動画を作っているのでそう言ってもらえて嬉しいです😊
声が可愛いから嬉しい!
勉強になりました!
JavaScriptのページをスクレイピングする方法も動画でみたいです!!
動的にJavaScriptで生成されるWebページもスクレイピングできるように、Seleniumの解説動画も作ろうと考えてます!
すぐには出せないかもしれませんが、待っていてもらえたら嬉しいです😊
動画とても参考になりました!有意義な情報をいつもありがとうございます!
1点質問なのですが、Jupyter lab でWebスクレイピングした際、日本語部分が文字化けしてしまい。。。。
これの解消法はございますでしょうか??
すげー
15:18の部分なんですけど、タグがpとなってますが表示されなくて
サイト確認してみたらh2になってました。
15:23の7行目 p_tit_tags = soup.find_all('p', class_='tit')
ここの'p'を'h2'に変えると表示されます
(これから勉強する方達へ)
HTMLが変更されたんですね!
スクレイピングの欠点でもありますね😵
情報のご共有、有難うございます😊
いつもすごくわかりやすいです。一つ教えて下さい。ボタンを押した時に画面上からでてくる確認ウインドウのOKボタンの属性はどのように調べればいいのでしょうか?
ご質問ありがとうございます!
上から出てくる確認ウィンドウとは、具体的にどのようなものでしょうか??動的に生成されている場合はBeautiful Soupじゃなくて、Seleniumを使う必要があるかもしれません。
Seleniumの動画も出しているので、よければ見てみてください!
▶︎ ruclips.net/video/Eu3CojjLQL4/видео.html
ご回答ありがとうございます。javascriptによる確認ウインドウのことです。例えば、このページの「保存に失敗しました」の「OK」ボタンです。www.javadrive.jp/javascript/webpage/index1.html
サプーさん、いつも動画拝見しているものです。
URLの取得件ですが,URLのドメインと属性を繋げて正しいURLを表示するには、
どういう風によろしいでしょうか?
お手数をおかけしますが、宜しくお願いします🤲
すみません、「属性をつなげて正しいURLを表示」というのは、ドメインの後ろにパスをつけたり、リクエストパラメータをつけるといったことでしょうか?
その辺の話ですと、Twitter APIの時の解説が一番詳しく話している気がするので、よければご覧ください。(他の動画でも解説しているかもしれないのですが、動画が多くなってきて、自分でも把握できておらず...)
ruclips.net/video/e5gd-QqXmmY/видео.html
後ろからfor文を修飾することができるとは知りませんでした。
そこを詳しく開設している動画はございますでしょうか。
リスト内包表記のことでしょうか?
こちらが解説動画です!
ruclips.net/video/Fj0ejL9Rmr4/видео.html
@@pythonvtuber9917
ありがとうございます。
こちらです!!
インポートはどこでするか教えて下さい
インポートはファイルの最上部でよろしいかと思います😊
ターミナルに HTMLを書き出してみると 文字化けしてて全く読めない状態です。
ためしに クリップボードにpython でコピーして ほかのアプリケーションに張り付けても 文字化けしてしまってる状態です。
サップーさん,いつもpythonコードを勉強させて頂いております。
リンク先のURL取得に関して、質問がございます。
AタグにID・classがない場合どのように取得すれば、よろしいでしょうか?
ご質問ありがとうございます😊
親の要素、さらに親の要素などにid、classがついているもの見つけて、その要素から、子要素を取得する形で、該当のaタグの要素にアクセスしたら良いかと思います😉
動画の12:48らへんで説明しているので、ぜひ参考にしてみてください!
Some segments in the video are stamped not adjacent to each other
Thanks for your comment!
スクレイピングってサイトがスクレイピング禁止してるのか確認するのがむずい、、、スクレイピング禁止って書いてないのに念のためサイトにメールして確認したらダメって言われた
スクレイピングがOKかどうかの確認、確かに難しいですよね😵
サイト運営側としては、一般的にはスクレイピングされるのはデメリットばかりなので、大々的にスクレイピングOKって言ってくれる所はあまりない気がしますね…
なんだこの感じは。なんかすっごくこの声が聴きたくなってきてしまったww
Python動画をたくさんUPしてるので、是非色々見てみてください☺️
たしかに、素人でこのボイスなのか?
それとも、ボイストレーニングかなにかしているのか気になる
本でもやったけどホームページのHTMLが全く別物になっててマジでキツい。h2をfind_allでやっても変な文字しか出ないし。本の時はヤフーニュース変わっててもなんとかやれたけど今回は抽出出来なそう。なんせ大量の変な文字しか出てこないからね_:(´ཀ`」 ∠):。
Webスクレイピングは元のHTMLが書き変わると、コードが動かなくなるのが難点ですね😵
@@pythonvtuber9917 最後の方のdiv id classの抽出でなんとかなったのでよかったです。
収集するデータの内容や利用方法によっては合法でもpixiv論文のように炎上しますし、Librahackの件もあるため、用法用量が問題ないか慎重に検討してから行いたいですね。
要素を抽出するときはcssセレクタが個人的に好みです。css、jsのquerySelectorと同じ構文で書けるので。
そうですね、他者・他企業のデータを利用する際は用途や方法を十分に気をつける必要がありますね。