「ptt 爬蟲 上一頁」的推薦目錄:
- 關於ptt 爬蟲 上一頁 在 コバにゃんチャンネル Youtube 的最佳解答
- 關於ptt 爬蟲 上一頁 在 大象中醫 Youtube 的精選貼文
- 關於ptt 爬蟲 上一頁 在 大象中醫 Youtube 的最讚貼文
- 關於ptt 爬蟲 上一頁 在 [問題] 新手爬蟲(被擋的問題) - 看板Python - 批踢踢實業坊 的評價
- 關於ptt 爬蟲 上一頁 在 Python爬取“多頁面”PTT八卦版資訊(含影片與程式碼) - Medium 的評價
- 關於ptt 爬蟲 上一頁 在 [Day 09] 實戰:用Requests&bs4 爬PTT (1) - iT 邦幫忙 的評價
- 關於ptt 爬蟲 上一頁 在 實作Python爬蟲PTT八卦版(Cookie操作&連續頁 ... - YC科技生活 的評價
- 關於ptt 爬蟲 上一頁 在 [爬蟲] PTT - 4 的評價
- 關於ptt 爬蟲 上一頁 在 PTT網頁爬蟲-爬每頁文章的網址 - YS生活誌 的評價
- 關於ptt 爬蟲 上一頁 在 PTT 網路爬蟲教學 的評價
- 關於ptt 爬蟲 上一頁 在 爬取PTT 八卦版文章標題- Python 網路爬蟲教學 的評價
- 關於ptt 爬蟲 上一頁 在 Quantitative_investment_materia... 的評價
- 關於ptt 爬蟲 上一頁 在 [python] PTT爬蟲– Beauty(表特)篇 - JysBlog 的評價
- 關於ptt 爬蟲 上一頁 在 Python PTT留言爬蟲留言分析依據字詞頻率製作成文字雲(Word ... 的評價
- 關於ptt 爬蟲 上一頁 在 Python爬蟲練習日記02 – 爬蟲換頁(Selenium) - 唬嚨優化師 的評價
- 關於ptt 爬蟲 上一頁 在 PTTcrawler (PTT文章爬蟲)-软件开发平台及语言笔记大全(超详细) 的評價
- 關於ptt 爬蟲 上一頁 在 [筆記] Python 爬蟲PTT 八卦版 - 地瓜大的飛翔旅程 的評價
- 關於ptt 爬蟲 上一頁 在 [問題] 大量爬蟲的問題- 看板Python - PTT網頁版 的評價
- 關於ptt 爬蟲 上一頁 在 Python爬取"多頁面"PTT八卦版資訊(含影片與程式碼) - YouTube 的評價
- 關於ptt 爬蟲 上一頁 在 Python爬取"多頁面"PTT八卦版資訊(含影片與程式碼) - YouTube 的評價
- 關於ptt 爬蟲 上一頁 在 學習PYTHON PTT正妹版爬蟲習題:多頁爬取 的評價
- 關於ptt 爬蟲 上一頁 在 【Python 實作】PTT八卦版爬蟲 - Steven的行銷觀察 的評價
- 關於ptt 爬蟲 上一頁 在 ptt爬蟲版-在PTT/MOBILE01上電腦組裝相關知識-2022-11(持續 ... 的評價
- 關於ptt 爬蟲 上一頁 在 Python 爬蟲ptt 2023 - ilplakasi.com 的評價
- 關於ptt 爬蟲 上一頁 在 [爬蟲實戰] 如何爬取PTT的網頁? - 大數軟體 的評價
- 關於ptt 爬蟲 上一頁 在 Python 爬蟲ptt 的評價
- 關於ptt 爬蟲 上一頁 在 Day10(12/22):Python 網路爬蟲Web Crawler( Cookie)PTT八卦版 的評價
- 關於ptt 爬蟲 上一頁 在 Python 爬蟲ptt 的評價
- 關於ptt 爬蟲 上一頁 在 韓文單字書dcard 2023 - nomalsa.online 的評價
- 關於ptt 爬蟲 上一頁 在 Dcard 看不到圖片2023 的評價
- 關於ptt 爬蟲 上一頁 在 2023 韓文單字書dcard - mujosi.online 的評價
- 關於ptt 爬蟲 上一頁 在 2023 Dcard 驗證破解軟體下載網站 - avrupavize.org 的評價
- 關於ptt 爬蟲 上一頁 在 Dcard 驗證破解軟體下載網站2023 - husomd.online 的評價
- 關於ptt 爬蟲 上一頁 在 文科生也可以輕鬆學習網路爬蟲:Python+Web Scraper(電子書) 的評價
- 關於ptt 爬蟲 上一頁 在 資料科學、智慧影像辨識與自然語言處理:Python+tf.Keras 的評價
ptt 爬蟲 上一頁 在 大象中醫 Youtube 的精選貼文
ptt 爬蟲 上一頁 在 大象中醫 Youtube 的最讚貼文
ptt 爬蟲 上一頁 在 Python爬取“多頁面”PTT八卦版資訊(含影片與程式碼) - Medium 的美食出口停車場
上次《Python手把手爬取PPT 八卦版最新話題!》教大家爬取一頁後,有許多讀者好奇如何多個頁面。只要可以知道爬2頁面以上,整個PTT爬下來就不是夢了XD ... ... <看更多>
ptt 爬蟲 上一頁 在 [Day 09] 實戰:用Requests&bs4 爬PTT (1) - iT 邦幫忙 的美食出口停車場
嗨大家,今天我們要來說明如何爬ptt的文章啦!只需要用 requests & beautifulSoup 就行啦! (關於此內容會拆分成兩天說明哦!) 在開始爬取一個網站之前一定要觀察該 ... ... <看更多>
ptt 爬蟲 上一頁 在 [問題] 新手爬蟲(被擋的問題) - 看板Python - 批踢踢實業坊 的美食出口停車場
板上的大大們好,小弟又來請教問題了,最近在爬群眾募資平台的資料,但很常會中間好
幾頁爬不到東西,過一陣子又有了,想請問大家是什麼問題...不確定是不是跟下圖這個
檢查網路連線的有關,有時候我換頁點很快也會遇到QQ 如果有關的話,想請問是否有解
決的辦法,謝謝!
附上我的程式碼:
(當初邏輯上是先去外面的頁面抓完每頁的id名稱再套進去網址去找每個項目的資訊,之
後再轉成Excel)
import requests
import bs4
import time
import random
import pandas as pd
collect_title=[]
collect_category=[]
collect_goal=[]
collect_final=[]
collect_people=[] #空列表之後存資料
def get_page_info(URL):
headers = {'cookie':'age_checked_for=12925;','user-agent': 'Mozilla/5.0 (W
indows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.
0.0.0 Safari/537.36'}
#含第九頁一項18禁的cookie
response = requests.get(URL,headers=headers)
soup = bs4.BeautifulSoup(response.text,"html.parser")
data=soup.find_all('div','text-black project text-neutral-600 mx-4 mb-4 pb
-12 relative h-full')
for t in data:
href = t.find("a","block").attrs["href"] #取a標籤下href後面的網址
link ="https://www.zeczec.com"+href
response_2 = requests.get(link,headers=headers)
soup_2 = bs4.BeautifulSoup(response_2.text,"html.parser") #解析取下的
網址中的網頁內容
main_info = soup_2.find_all('div','container lg:my-8')
for i in main_info:
#category = i.find('a','underline text-neutral-600 font-bold inlin
e-block').text.strip()
category = i.find_all('a','underline text-neutral-600 font-bold in
line-block')[1].text.strip()
title = i.find('h2', 'text-xl mt-2 mb-1 leading-relaxed').text.str
ip()
final_cash = i.find('div','text-2xl font-bold js-sum-raised whites
pace-nowrap leading-relaxed').text.strip()
goal_cash = i.find('div','text-xs leading-relaxed').text.strip()
people = i.find('span','js-backers-count').text.strip()
final='類別:{} 標題:{} 目標:{} 實際:{} 贊助人數:{}'.format(categor
y,title,goal_cash[6:],final_cash[3:],people)
print(final)
collect_category.append(category)
collect_title.append(title)
collect_goal.append(goal_cash[6:])
collect_final.append(final_cash[3:])
collect_people.append(people) #丟入collect列表
time.sleep(2)
for i in range(1,13,1):
print("第"+str(i)+"頁")
URL="https://www.zeczec.com/categories?category=1&page="+str(i)+"&type=0"
get_page_info(URL)
delay_time=[3,7,8,5]
delay=random.choice(delay_time)
time.sleep(delay)
print(len(collect_goal)) #計算抓了幾筆
#print(collect_final)
#print(collect_people)
col1 = "類別"
col2 = "標題"
col3 = "目標金額"
col4 = "實際金額"
col5 = "贊助人數"
data = pd.DataFrame({col1:collect_category,col2:collect_title,col3:collect_goa
l,col4:collect_final,col5:collect_people}) #三欄放list
data.to_excel('音樂.xlsx', sheet_name='sheet1', index=False)
遇到問題的畫面:
突然好幾頁不能抓到這樣,不知道是requests 還是太頻繁嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.132.142 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1665326491.A.116.html
※ 編輯: etudiant (42.72.132.142 臺灣), 10/10/2022 02:55:27
... <看更多>