【 Python 爬蟲】2 小時初學者課程：一次學會 PTT 爬蟲、Hahow 爬蟲、Yahoo 電影爬蟲！

CodeShiba 程式柴

Просмотров 184 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 2 дек 2024

Комментарии • 222

@CodeShiba Год назад ⁺¹⁷
🔥【 Python 】給初學者的 2 小時爬蟲教學 (實作 4 個專案) (2023) 🔥
⭐章節目錄⭐
【專案 1 - PTT NBA 版爬蟲】爬蟲起步走！
🚗 0:00:00 爬蟲介紹
🚗 0:04:06 開始撰寫 PTT - 使用 Reuest 取得原始碼
🚗 0:11:02 進一步模仿使用者
🚗 0:17:43 使用 BeautifulSoup 解析 HTML 獲得資料
🚗 0:32:44 儲存成 JSON 格式
🚗 0:37:28 儲存成 Excel 格式
【專案 2 - PTT 表特版爬蟲】偽裝使用者Cookie
🚗 0:40:33 PTT 表特版爬蟲簡介
🚗 0:43:58 開始撰寫 PTT 表特版爬蟲
🚗 0:50:20 自動下載圖片
【專案 3 - Hahow 好學校爬蟲】學會如何爬取 Ajax 網頁
🚗 1:03:20 Ajax 爬蟲介紹
🚗 1:04:32 Hahow 爬蟲實戰 01 觀察網頁
🚗 1:10:52 Hahow 爬蟲實作
【專案 4 - Yahoo 電影爬蟲】找出最近好看的電影！(練習一下是否掌握爬蟲技巧)
🚗 1:19:54 Yahoo 爬蟲電影列表
🚗 1:32:22 Yahoo 電影「下一頁」功能實作
【先修教材】
Python 教學： ruclips.net/video/lvH4-4iYjgs/видео.htmlsi=mdMAQs6BBGkHzcHV
HTML + CSS 教學： ruclips.net/video/fa214Ct6t9w/видео.html
@boaz411133 7 месяцев назад ⁺⁶
謝謝你🎉
居然有提供字幕
實在太感謝了
這對通勤族來說十分的棒😊
@CodeShiba 7 месяцев назад ⁺²
通勤學程式太認真了！
@攝影佬 3 месяца назад ⁺⁶
看過最高品質的教學，把網路上碎片化的信息結合濃縮成一部影片的效果超好！！！
@CodeShiba 3 месяца назад ⁺³
謝謝稱讚！學習加油！
@wyc2462 3 месяца назад
@@CodeShiba 專業戶，我來研究一下。
@cny691n Год назад ⁺⁶
好人一生平安！
讚！
@CodeShiba Год назад
感謝啦！
@evanh.3744 2 месяца назад ⁺¹
講解得很清楚，教學速度也適中，初學者的福音～
@CodeShiba 2 месяца назад
謝謝稱讚！
@user-saint 10 месяцев назад ⁺⁴
感謝程式柴無私教學😄
@CodeShiba 10 месяцев назад
謝謝支持
@allenlai9954 Год назад ⁺⁶
感謝大大無私分享
@CodeShiba Год назад
感謝支持！
@chenkenny4416 6 месяцев назад ⁺²
解說的非常仔細，讓我們從不懂慢慢的跟著你學習，真的大推<
太感謝你的佛心😍😍😍😍😍
@CodeShiba 6 месяцев назад
謝謝！
@ktbcbs6372 Год назад ⁺⁵
感謝分享
@CodeShiba Год назад
感謝推薦！
@fishyellow-87719 10 месяцев назад ⁺³
講的很好，學到了，感謝
@CodeShiba 10 месяцев назад
謝謝支持！
@0948狂 11 месяцев назад ⁺⁴
謝謝老師教學
@CodeShiba 11 месяцев назад
謝謝94狂
@亮亮熊 11 месяцев назад ⁺²
讲的很通俗易懂，老师好棒
@CodeShiba 11 месяцев назад
謝謝支持
@ps0926155637 26 дней назад ⁺²
🎉🎉
@87a05a29a Год назад ⁺²
在社團看到馬上來按讚😊
@CodeShiba Год назад
大感謝！
@SherryTheNerd 7 месяцев назад ⁺¹
謝謝Luka大大工作剛好要用到真方便
@CodeShiba 7 месяцев назад
客氣了感謝支持
@yungshenchen258 Год назад ⁺⁶
感謝大大無私分享指導教學!
@CodeShiba Год назад ⁺²
感謝支持！
@HoshinoAlex 9 месяцев назад ⁺²
感谢老师🤩
@CodeShiba 9 месяцев назад
謝謝支持
@劉希城 Год назад ⁺³
好棒
@suwenhao9864 11 месяцев назад ⁺²
Happy new year
@CodeShiba 11 месяцев назад
Happy new year
@cheche5315 10 месяцев назад ⁺¹
謝謝老大
@CodeShiba 10 месяцев назад
不客氣
@minminshu4741 Год назад ⁺³
我是从对岸来的这学期布置的一个课堂作业就是要实现爬虫宝藏视频啊收藏了慢慢看
@CodeShiba Год назад ⁺¹
加油！
@nsxacura200 11 месяцев назад ⁺¹
可以考虑用selenium
@searchfor1987 7 месяцев назад ⁺¹
感Luka大大，從中學到很多!
@CodeShiba 7 месяцев назад
不客氣
@RD-qb8te Год назад ⁺⁴
如何修改翻页爬取PTT NBA呢？参数传入参数，提示return request("get", url, params=params, **kwargs)
@jordymalone274 8 месяцев назад ⁺¹
大大不好意思，我打開檢查元素跳到network按下重新整理，他都不會顯示東西ㄟ
但是waterfall那邊還是會有長長的線，就名稱那些都沒有東西
@wtf1138 10 месяцев назад ⁺²
太恐怖了我明明沒有這方面的需求
但我還是忍不點開還看完了 !
(看到下面的時間果然寫程式就是要熬夜xd)
@ascafe13 Год назад ⁺⁵
初學者也能輕易寫出程式碼~老師很會教!
@CodeShiba Год назад ⁺¹
謝謝支持！
@stonejerome8291 11 месяцев назад ⁺⁵
既然有反爬虫，那反反爬虫怎么做？到底爬虫厉害还是反扒厉害？
@李瑩-b5f 25 дней назад ⁺¹
請問程式柴可以出python 爬蟲證交所公開資訊觀測站出的即時訊息的網路爬蟲+爬到的即時資料剖析結合line notify推播即時訊息的的教學嗎～
@CodeShiba 15 дней назад
19小時課程中有股票價格鬧鐘小幫手但不是爬證交所
@louislim2316 10 месяцев назад ⁺¹
不知道大大有没有更进阶的教学，比如爬取小红书，脸书资讯的方法？因为这类大型的网站反爬虫的方法比较不一样，不知道如何分析。或者不方便放教学，有没有群组之类的可以加入讨论？
@CodeShiba 10 месяцев назад
沒有大網站反爬蟲隨時會改變沒有通用的方法
@miffy30427 Год назад ⁺³
想請問Luka, 1:01:45 用/分割那個部分，為何要設定最後一個呢？
@CodeShiba Год назад ⁺¹
你把整個列表印出來就懂了
@CodeShiba Год назад ⁺²
列表的最後一格會是檔名
@1個顗任 10 месяцев назад ⁺¹
luka大大我把你的爬蟲跟基礎教學都學完，也自己都打過一遍。
接下來會建議下一部分學習哪一部分
@CodeShiba 10 месяцев назад ⁺¹
下一個推出的免費教學是SQL教學你想學的主要是Python教學嗎
@1個顗任 10 месяцев назад ⁺¹
@@CodeShiba 是的主要是做數據分析跟股票api
@1個顗任 10 месяцев назад ⁺¹
有考慮付費課程，教更進階的python使用嗎@@CodeShiba
@CodeShiba 10 месяцев назад ⁺¹
@@1個顗任有的，六小時教學那邊我有開一個 19 小時的付費課程，價格不貴，可以參考看看。
@1個顗任 10 месяцев назад ⁺¹
@@CodeShiba 請問內容主要是教什麼部分
@kaitom-in7dd 10 месяцев назад ⁺¹
老师你的视频使用PPT做的吗，质量真高
@CodeShiba 10 месяцев назад
類似ppt 我用Mac keynote做的
@KK-il6ni 8 месяцев назад ⁺²
想詢問一下本身是用vscode去使用為什麼在用瀏覽器打開html的程式碼時卻是只有文字沒有圖片感謝！
@CodeShiba 8 месяцев назад
不清楚你的程式碼怎麼寫的耶
應該是因為圖片沒讀到所以會顯示圖片的敘述文字
@handsomemarkchen 7 месяцев назад ⁺¹
請問一下爬蟲軟體可以用在商業用的大數據分析嗎？有的話要觀看哪個影片比較合適？
@CodeShiba 7 месяцев назад
爬蟲的用處是蒐集資料呦跟分析資料是不同的環節
我的 19 小時課程有相關概念，請參考 lihi1.com/1bUSS
@kuo55tai 8 месяцев назад ⁺¹
真的是不錯的教學,看過後依照流程可以將結果爬出來.
在PTT網頁下載圖片為什麼都是0位元組，將爬下的網址用瀏覽器測試都可以顯示正常圖片,
爬取的網址沒問題但在寫入檔案為什莫會變成0位元組呢?下載其他的也正常執行沒出錯但圖片一樣為0
不知道是哪裡有問題?程式碼跟教學的一樣但就是圖片為0,請問老師這是什麼原因.謝謝耽誤您的時間.
@CodeShiba 8 месяцев назад
有程式碼嗎我試試看能不能重現問題
@kuo55tai 8 месяцев назад ⁺³
謝謝老師的教學,我想到是不是因為圖片已經不是PTT的網站了,所以我就試著在download的函數
加請求頭測試結果成功了,感謝老師的視頻教學。
@CodeShiba 8 месяцев назад
@@kuo55tai讚！
@笑笑生-t1p 6 месяцев назад
我也遇到了相同問題，然後status_code一直都是429，也有試著加入header "user-agent": "curl/8.1.1",
"accept": "*/*" 也沒用...請問有人知道可能是什麼原因嗎？感謝大大的回覆
@笑笑生-t1p 6 месяцев назад
更正：
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"
是這樣帶，但一樣還是沒用
@LolikonGod Год назад ⁺⁵
請問一下，用ptt爬表特有辦法辨識文章的圖片和留言的圖片嗎?
如果用老師寫的方式，會連帶留言的圖片一起爬
想問老師有沒有方式可以只爬文章不爬留言
@CodeShiba Год назад ⁺¹
觀察一下文章區域外面包覆的html名稱來修改
@LolikonGod Год назад ⁺³
感謝老師提點!
我發現留言的父級元素都有class_=push
我先創建列表x=[]
利用img.find_parent(class_="push")找到父級元素含有class_="push"的網址
將它們丟入x:
for img in links:
if img.find_parent(class_="push"):
x.append(img.text)
在之後爬網頁圖片的迴圈中加入
if href in x:
continue
跳過x內的網址
就能只爬文章不爬留言了
@CodeShiba Год назад ⁺¹
perfect!!
@jinyichen534 8 месяцев назад ⁺¹
想請問.. 25:36這邊，title = a.find("div", class_="title") 的class_ 那個底線有什麼功用？只寫class好像也跑得動，弄不太清楚差異
@CodeShiba 8 месяцев назад ⁺¹
class是python類別關鍵字有機會出錯
@jinyichen534 8 месяцев назад
瞭解了！謝謝～
@snow26103901 Год назад ⁺⁶
很棒的教學但我現在都叫CHATGPT寫了XD
@CodeShiba Год назад
哈哈優秀
@milk-coffeedrink388 9 месяцев назад ⁺³
請問Luka 大大, 關於表特爬蟲的那邊, 最後雖然有將圖片存成檔案,
但檔案卻打不開, python 點擊後顯示:
Image not loaded
Try to open it externally to fix format problem
實際去資料夾確認, 檔案大小位元為 0 ;
回去看執行結果中的url 與正在下載圖片的顯示網址用瀏覽器都是可以正常開啟的
再懇請大大協助解惑, 感謝您!
@CodeShiba 9 месяцев назад
看起來沒有儲存成功
程式碼貼上來看看
@milk-coffeedrink388 9 месяцев назад
以下是跟著大大影片一起 key in 的程式碼:
import requests
from bs4 import BeautifulSoup
import os # 建立資料夾用的
def download_img(url, save_path) :
print(f"正在下載圖片:{url}")
response = requests.get(url)
with open(save_path, 'wb') as file:
file.write(response.content)
print("-" * 30)
def main():
url = "www.ptt.cc/bbs/Beauty/M.1686997472.A.FDA.html"
headers = {"Cookie" : "over18=1"}
response = requests.get(url, headers= headers)
soup = BeautifulSoup(response.text, "html.parser")
# print(soup.prettify())
spans= soup.find_all("span",class_="article-meta-value")
title = spans[2].text # 標題
# 1. 建立一個圖片資料夾
dir_name = f"images/{title}"
if not os.path.exists(dir_name):
os.makedirs(dir_name)
# 2. 找到網頁中的所有圖片
links = soup.find_all("a")
allow_file_name = ["jpg", "png", "jpeg", "gif"]
for link in links:
href = link.get("href")
if not href:
continue
file_name = href.split("/")[-1]
extension = href.split(".")[-1].lower() # split 表用甚麼當分隔符號
# print(extension)
if extension in allow_file_name :
print(f"檔案型態:{extension}")
print(f"url:{href}")
download_img(href,f"{dir_name}/{file_name}")
# print(href)
# 3. 如果是圖片的話下載
if __name__ == "__main__" :
main()
@milk-coffeedrink388 9 месяцев назад
看起來youtube 好像不能直接貼程式碼, 貼完之後留言就不見了>_<
有嘗試請chatGPT 幫忙偵錯, 依系統建議的程式碼寫完後出現以下錯誤碼:
圖片下載失敗: 429 Client Error: Unknown Error for url
再依系統建議加入 import time ; 並在迴圈download_img 下面加了 time.sleep(5)
但是還是顯示一樣的錯誤碼 :圖片下載失敗: 429 Client Error: Unknown Error for url
@chiachilien2981 8 месяцев назад
@@CodeShiba Luka老師好，我也出現相同的問題，這是我的程式碼
def download_img(url, save_path):
print(f"正在下載圖片：{url}")
response = requests.get(url)
with open(save_path, "wb") as file:
file.write(response.content)
print("-" * 30)
@ShineWang-x7e 5 месяцев назад
@@milk-coffeedrink388我也遇到一样的问题，图像不能在pycharm中观看
@fatfat7835 10 месяцев назад ⁺²
想問有ajax call back 的應對方法嗎
@CodeShiba 10 месяцев назад ⁺¹
Ajax有教呀 hahow就是ajax
@junli5087 11 месяцев назад
第一个data_list=[ ]
里面什么都不填写值嘛？反正储存出来的josn里面就只有个[ ]，撒也没有东西
@Cat.the.Roblox.girl. 10 месяцев назад ⁺¹
可惜大型網站都會限流，用程式抓資料一下就被擋了
@CodeShiba 10 месяцев назад
欸還是可爬可以調整爬蟲頻率
@Apianpa 5 месяцев назад ⁺³
不好意思～想請教一下，實作表特版抓圖片，執行後資料夾內的檔案都是0KB無法打開，可能的原因是什麼呢？
但是如果點擊執行後“正在一下載圖片”後的url圖片都能正常開啟
@CodeShiba 5 месяцев назад ⁺²
之前有人遇到好像是改user agent
@周信宏-e3g 4 месяца назад ⁺¹
@@CodeShiba 請問能詳細說嗎我也是載下來圖片都是0k無法開啟程式碼和您一樣但我是使用VScode
@CodeShiba 4 месяца назад
在 requests 加上 user_agent 加上瀏覽器的資訊。模仿使用者，試試看能否成功。
@johon8964 3 месяца назад
@@CodeShiba 但我改了以後,卻還是顯示"An error occurred while loading the image...."(我是抓PTT的圖片來使用,程式撰寫也是跟老師一樣;而我點開圖片鏈結,會到imgur這個頁面。我不知道是不是imgur的問題?)
@thestan4078 Месяц назад ⁺²
我今天測試了，在 requests 加上 headers(User-Agent) 後就可以正常下載圖片了，範例 :
def download_images(url, save_path):
print(f"正在下載圖片，url:{url}")
headers = {'User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36'}
response = requests.get(url, headers=headers)
with open(save_path, 'wb') as file:
file.write(response.content)
print("-" * 30)
@xuhaibing 8 месяцев назад ⁺¹
感觉python抓取到html元素后在交给js解析反而更简单些😅
@CodeShiba 8 месяцев назад
真的嗎你可以試試看
@lt3777 11 месяцев назад ⁺¹
想問大大用的什麼電腦，推介用什麼電腦，或者不同程度推介的電腦？
@CodeShiba 11 месяцев назад ⁺¹
Windows和mac我都有 Ram 買多一點跑比較順
@lt3777 11 месяцев назад ⁺¹
@@CodeShiba 謝謝！那laptop，一體式的跟主機電腦分離的，會有差別嗎，或者好用的程度，還是都一樣？
@CodeShiba 11 месяцев назад ⁺¹
Laptop方便攜帶也可以外接螢幕桌機擴充較容易看看自己需求購入吧
@lt3777 11 месяцев назад ⁺¹
@@CodeShiba thank you～😊
@嘟嘟-w6z Год назад ⁺¹
請問程式柴大大有些網站是不是幾乎沒辦法爬? 例如我想爬google play 的評價從network 裡面幾乎找不到相關可以爬的地方~
@CodeShiba Год назад
Google play我沒試過我以為只能用手機讀取
@vtulin3097 Год назад ⁺²
不好意思，新手小白請問如何學習：抓取twitter 音訊空間的逐字稿（twitter spaces caption）
（目前的直播好像都可以自動產生逐字稿）
有嘗試用chatGPT、Claude、Bard實作都失敗
@CodeShiba Год назад ⁺¹
我沒用過耶看看能不能把影片載下來直接用whisper api轉成字幕比較快
@vtulin3097 Год назад ⁺¹
@@CodeShiba twitter的音訊空間，網頁上本身就保存了現成逐字稿，但因為介面的關係，難以整段用複製擷取，用whisper反而花時間
@CodeShiba Год назад ⁺¹
@@vtulin3097 他可能是故意的有時候字幕檔會用串流的方式做 (隨時間才從伺服器端下載)
@vtulin3097 Год назад ⁺¹
@@CodeShiba 對，就是這個狀況，想請教能怎麼抓取
每段新的對話會生出一個新的html tag
，如果頁面不動是可以往前滑，但無法全選、複製
我不會python，因此試用過瀏覽器extension、對話式AI，但目前都做不到
@CodeShiba Год назад ⁺¹
@@vtulin3097 不建議這樣抓取啦需要發出很多個請求才能獲得完整字幕檔我自己也沒有這樣抓取過
@玟伶周-p4t 10 месяцев назад ⁺¹
初學者想詢問如果是網站裡每個標題裡面的文章內容有辦法爬嗎?
@CodeShiba 10 месяцев назад
當然可以，先爬文章標題的文字和連結，然後一個頁面一個頁面爬
@elantra_0528 4 месяца назад ⁺¹
請問Python 如果要拿來編寫電梯運行程式該怎麼開始?
之後轉交給PCB廠商製作一體版是可行的嗎?
@CodeShiba 4 месяца назад
直接問電梯廠商啦
@chcc712 7 месяцев назад ⁺¹
大大您好~ 我也是爬表特版圖片遇到下載下來的檔案無法開啟。
我觀察到如果imgur的連結前面有帶i (i.imgur...)，則requests.get跑出來的response會跳Response 429 error。
但若把網址前面的i拿掉，那出來會是正常的Response 200。
如果把含i的連結直接用chrome跑跑看，網址會自動跳轉至不帶i的連結。
不知道這個現象是不是imgur的防爬蟲機制?
大大有沒有什麼方法可以解? 謝謝!!
@CodeShiba 7 месяцев назад ⁺¹
之前有人遇過好像加個user agent就可以或是你把網址在程式裡面改成完整的也可以
@chcc712 7 месяцев назад
@@CodeShiba 加了user agent成功了! 感謝柴大!!
@NNN0309 7 месяцев назад
@@CodeShiba加入了user-agent及修改網址都無法耶
@黎家昇-c3f Месяц назад ⁺¹
會教java嗎
@CodeShiba 15 дней назад
會
@brucewei1679 Год назад ⁺²
谢谢程式柴老师的分享,我是来自福建的学员
可以建一个讨论组,方便大家遇到一些问题在群里面讨论吗?
@CodeShiba Год назад ⁺¹
感謝支持討論區尚在規劃中目前還未確定會開啟有問題歡迎透過yt留言交流
@JeremyOp Год назад ⁺²
同求討論區我遇到了一些問題
@CodeShiba Год назад ⁺¹
不好意思這幾天不在晚回覆了
我開一個討論區也沒有高手可以回答你 > <
建議可以尋找已存在的Python討論區發問呦
@JeremyOp Год назад ⁺²
@@CodeShiba 有推薦的嗎沒找到存在的爬蟲討論區
@CodeShiba Год назад ⁺¹
@@JeremyOp 直接找 Python 討論區即可，大部分寫 Python 的人都會寫爬蟲
@陳欣蕙-n7d Месяц назад ⁺¹
老師如果跑出 "遠端主機已強制關閉一個現存的連線" ，請問這個可以怎麼處理呢?
@CodeShiba 15 дней назад
應該是爬得太快被拒記得加上time.sleep 避免這種情況
@davison4822 6 месяцев назад ⁺¹
我在爬取電影網站的時候選擇的是威尼斯的網站，但在爬取下一頁按鈕的時候發現他按鈕的li標籤不僅沒有class就連href的網址部分也只有全部網址的一部份，就是指後面有關page的部分，那我該如何改寫(我的code是照影片裡寫的
@CodeShiba 6 месяцев назад
還是可以的自己手動把原網誌加上去
@davison4822 6 месяцев назад ⁺¹
大概像這樣?movie_date=&page=2?movie_date=&page=1?movie_date=&page=2
@carloschen5595 10 месяцев назад ⁺¹
請問9:16沒有自動跳出可用瀏覽器，要點選哪邊開啟或著如何設定??
@CodeShiba 10 месяцев назад ⁺¹
試試看這
在PyCharm中開啟瀏覽器通常是用於預覽你的程式碼的運行結果或訪問線上資源。你可以按照以下步驟來設定瀏覽器開啟方式：
1. 打開PyCharm。
2. 在菜單欄上，選擇 "File"（文件） > "Settings"（設定）（在Mac上是 "PyCharm" > "Preferences"（偏好設定））。
3. 在左側導覽欄中，展開 "Tools"（工具）部分，然後選擇 "Web Browsers"（網頁瀏覽器）。
4. 在右側的 "Default browser"（預設瀏覽器）下拉選單中，選擇你想要使用的瀏覽器，例如Chrome或Firefox。
5. 點擊 "OK" 保存設定。
這樣，當你在PyCharm中運行程式或點擊連結時，它應該會自動在你選擇的瀏覽器中開啟。如果仍然無法自動跳出可用瀏覽器，請確保你的瀏覽器已經安裝並正確設定在系統中。
@carloschen5595 10 месяцев назад
@@CodeShiba 謝謝柴哥解答，雖然還是不行，但是不要糾結😂但如果有手動開啟localhost網頁的方法可以跟我說一下😆
@ShungTse Год назад ⁺²
我想請問關於hahow 爬蟲的部分
API是不是需要等很久才會跑出來,還是我找得不夠仔細
@CodeShiba Год назад
應該是一開始就會有因為頁面渲染需要那隻api 如果要快速確認的話有filter過濾search關鍵字
@ShungTse Год назад ⁺¹
了解!感謝你
@junli5087 11 месяцев назад ⁺¹
(response.text，)print后跑出来的错误，attributeError:module 'response' has attribute 'text'
@junli5087 11 месяцев назад ⁺¹
response没有text的属性
@CodeShiba 11 месяцев назад
全部代碼貼出來看看目前資訊看不出原因
@GhostKUO Год назад
請問一下有辦法教網站抓關鍵字自動購買的的爬蟲嗎
@李子謙-k7r Год назад
你想當黃牛嗎
@kk-qx8dp 6 месяцев назад ⁺¹
請問 , 若我抓下來的資料 , 少很多 , 跟目前看到的程式碼不同 , 是哪裡出問題 ? 有沒有人可以解答 , 感謝 !! , 格式是 php
@CodeShiba 6 месяцев назад
不知道耶不知道可以爬什麼網頁也不知道你怎麼寫的
@amyjiang3985 Год назад
一定要先修python哦
@CodeShiba Год назад
要喔可以不用看完但基本語法要會
@yungshenchen258 Год назад
有程式碼可以提供研究嗎
😄
@CodeShiba Год назад ⁺¹
暫時不打算提供呦感覺讓同學自己打比較有意義
@junli5087 11 месяцев назад
按照你的描述是有json文件，但是没有任何东西
@鄧帥哥-z4v 9 месяцев назад ⁺¹
柴哥不好意思表特版的那part我印出照片時他狀態碼顯示429該怎麼解
@CodeShiba 9 месяцев назад
發請求發的太快速被擋了發慢點每秒發一次或是更多秒發一次
@Maker12_14 8 месяцев назад ⁺¹
@@CodeShiba Luka大大您好, 我也遇到response.status_code == 429的狀況, 有試過for迴圈來增加delay或者只下載一張圖, 都還是會碰到429, 請問Luka大大有甚麼想法嗎? 謝謝
@CodeShiba 8 месяцев назад
@@Maker12_14爬的頻率太高被設成黑名單了
@Maker12_14 8 месяцев назад
@@CodeShiba 謝謝Luka大大的回覆, 真是寶貴的一課
@camusLi-t7v 9 месяцев назад ⁺¹
柴哥，爬出来的图片全部都损坏了是什么情况？
@CodeShiba 9 месяцев назад
提供的資訊不夠無法判斷呦
@camusLi-t7v 8 месяцев назад
就是爬出来的图片全部都是0kb的打不开，感觉应该是给反爬了@@CodeShiba
@ShineWang-x7e 5 месяцев назад
爬虫频率太高了，被检测了
@ShineWang-x7e 5 месяцев назад
@@camusLi-t7v你解决了吗，我也遇到一样的问题了
@Amandao-g3i Год назад
請問老師在撰寫 PTT 表特版爬蟲時，執行後回傳無法得檔案
@CodeShiba Год назад
資訊不足無法判斷出現什麼問題我猜應該是沒有爬到網頁對應的元素一步驟一步驟印出看看
@nagisupercell Год назад ⁺⁸
Yahoo電影表示：....
@CodeShiba Год назад ⁺¹
哈教學用電影也不需要常常爬取
@shihuangqin-l4u 4 месяца назад
😂想学，看的头大😂
@CodeShiba 4 месяца назад
慢慢看知識密度很高這個影片我拍很久
@richard9245 4 месяца назад
Yahoo 電影網站沒了啊 😢
@CodeShiba 4 месяца назад ⁺²
拍完一陣子 yahoo電影就消失了...
@zhiweizhong-p6r 3 месяца назад
macbook 跟window的一样的吗？
@CodeShiba 3 месяца назад
一樣唷先看我的Python教學建置環境
@乂乂乂乂-d2q 3 месяца назад ⁺¹
您好程式柴先生請問有甚麼其他管道可以聯繫您嗎我這邊有很多問題想請教您那怕是電子郵件也好
@CodeShiba 3 месяца назад
有什麼問題嗎我沒有提供私人教學呦
@阿蟲-n7q 7 месяцев назад ⁺¹
表特版的好像沒辦法使用了
@CodeShiba 7 месяцев назад
怎麼說
@阿蟲-n7q 7 месяцев назад
@@CodeShiba 就是圖片那邊會有出現顯示錯誤的訊息
@鄭仁和-w9g 11 месяцев назад ⁺¹
好屌　這不是付費的　超佛心
@CodeShiba 11 месяцев назад
謝謝支持
@junli5087 11 месяцев назад ⁺¹
headers 显示是错误的
@CodeShiba 11 месяцев назад
哪部分呢
@junli5087 11 месяцев назад ⁺¹
好了
@junli5087 11 месяцев назад ⁺²
为何标题和人气只爬出一条出来
@yzd-lu2nj 11 месяцев назад ⁺¹
for循环注意⚠️
@李俞呈 9 месяцев назад ⁺¹
知识量巨大
@CodeShiba 9 месяцев назад
謝謝肯定！
@ShirleyChang-l3j 3 месяца назад
我是Mac使用者，用pycharm編輯程式時可以打出中文，但在輸出的地方卻無法打出中文，請問是要改什麼設定嗎？
@CodeShiba 3 месяца назад
不用改按enter就會出現
@ShirleyChang-l3j 3 месяца назад
@@CodeShiba 我的意思是，假設name=input("請輸入你的名字：")
print(name)按執行後，我無法在下面執行的地方打出中文字，只能打出英文，也就是它叫我輸入你的名字：但我打不出中文字，只能打出英文，請問這是為什麼？
@CodeShiba 3 месяца назад
@@ShirleyChang-l3j 要盲打啦盲打之後按 enter 就會輸出中文字
@junli5087 11 месяцев назад ⁺¹
爬了半天撒也没爬出来😅
@CodeShiba 11 месяцев назад
編程需要耐心的這個是非常初階的爬蟲了大部分時候也不會有人幫助你完成編程該講的細節我都放在視頻裡了能不能學起來要看你自己加油
@dominicflower4602 10 месяцев назад ⁺⁶
不好意思留言一直無法成功(貼程式碼的關係?) 問題在下面
@dominicflower4602 10 месяцев назад
這個 docs.google.com/document/d/123ucJcixBJgxZzdSTOxX4Qt_tQStp92lH7gTvDPhtpg/edit
@dominicflower4602 10 месяцев назад
@CodeShiba 麻煩您謝謝
@1個顗任 10 месяцев назад
我猜是終端機沒有安裝這個
在終端機" pip install openpyxl" 看看
@dominicflower4602 10 месяцев назад
已經有安裝過了@@1個顗任
@zhiweizhong-p6r 3 месяца назад
为什么爬的都是乱码呢？
@CodeShiba 3 месяца назад
編碼要設定utf-8
@zhiweizhong-p6r 3 месяца назад
@@CodeShiba 初学小白☺能否详细点说明在那个位置设定啊？谢谢
@CodeShiba 3 месяца назад
@@zhiweizhong-p6r 你把自己的 Code 貼上問 AI，然後加上「如果將編碼設定成 utf-8」這樣 AI 就會教你了
@junli5087 11 месяцев назад ⁺¹
我在articles中定义了soup.find_all("div", class_="r-ent")后，在"title"和"nrec"定义后，只爬出来一条信息，我这边print(title.a.text)后，没有出现错误语录，故不用做if和else判断语句
@CodeShiba 11 месяцев назад
貼Code出來我才知道呦
@junli5087 11 месяцев назад
怎么加你微信或者 chat