编写基于浏览器自动化的操作代码
实例化浏览器对象bro=webdriver.Chrome(executable_path=./chromedriver.exe’)
发起请求 -----bro.get(url)
标签定位 -----find系列操作
标签交互(如输入)----send_keys(‘xxx’)
执行js程序-----excute_script(“jsCode”)
前进和后退(导航栏上的前进和后退按钮)---- forward(), back(), refresh()
关闭浏览器------quit()
关闭新页面------close()
获得当前所有打开的窗口的句柄(用于多窗口转换操作)----all_handles=bro.window_handles
获取当前窗口句柄----current_window_handle
切换窗口句柄------switch_to.window(需要切换到的句柄)
切换到原始窗口-----bro.swithc_to.window(bro.window_handles[0])
切换到最新窗口----bro.switch_to.window(bro.window_handles[-1])
页面截图-----bro.save_screenshot("./aa.png") 参数为保存路径
元素截图-----a. screenshot(’./aa.png’) a为定位到的元素
页面源码获取 ----bro.page_source
点击操作-----btn.click() btn为定位到的按钮
刷新操作-----bro.refresh()
python自动化测试代码报错:selenium.common.exceptions.NoSuchElementException: Message: no such element......
明明定位没有问题,在浏览器查询元素也唯一,但一直找不到元素,原因可能是:
没有切换frame
有一种节点叫做iframe,也就是子Frame 相当于页面的子页面,他的结构和外部网页的结构完全一致。Selenium打开一个页面后默认是Frame里操作,此时页面如果有子Frame也就是iframe,他是不能获取子Frame里的节点的这个时候就可以用switch_to.frame方法切换Frame。
解决方案:
切换浏览器对象的作用域
frame = driver.find_element(By.CSS_SELECTOR,'iframe[id="login_frame"]')
driver.swich_to.frame(frame)
或者
bro.switch_to.frame('login_frame')
多标签页
用selenium点击某个按钮,然后生成了一个新的标签页(网页)这个时候你去定位这个新的标签页(网页)里面的标签不管用你用什么去定位都定位不到,因为在你的视角浏览器会自动帮你跳转到第二个标签页,但是selenium它还在第一个标签页,然后就变成了你写你的不管selenium什么事了。所以要用到browser.switch_to.window(browser.window_handles[1])。需要注意的是window_handles的索引是从0开始的。
解决方案:
先打印窗口的名称看看
current_handle = driver.current_window_handle
handles = driver.window_handles
for handle in handles:
driver.switch_to.window(handle)
time.sleep(1)
print(driver.title, driver.current_window_handle)
切换到最新的窗口
bro.switch_to.window(bro.window_handles[-1])#浏览器对象切换到最新窗口
例如
# 获取当前句柄
ele = bro.current_window_handle
print(f"当前句柄是:{ele}")
#获取所有句柄
ele_all = bro.window_handles
print(f"所有句柄号:{ele_all}")
# 切换句柄号
bro.switch_to.window(ele_all[-1])
3、页面元素没有加载完成
网速慢,代码又执行过快,所以找不到元素
解决方案:设置隐形等待或显性等待解决
bro.implicitly_wait(1)#隐式等待1秒
隐式等待是其实可以理解成在规定的时间范围内,浏览器在不停的刷新页面,直到找到相关元素或者时间结束。
4、代码已经操作到,但页面尚未跳转到某一页
设置显性等待
try:
WebDriverWait(bro, 5).until(EC.alert_is_present(), 'Timed out waiting for alerts to appear')
alert = bro.switch_to.alert
alert.accept()
except TimeoutException:
print("Timeout and No Alert Appearing")
sleep()强制等待
sleep(1)#等待1秒
5.xpath有问题
复制完整XPATH看看里面有没有tbody 标签,这个一般是浏览器加上去的,把这个标签去掉
比如/html/body/div[1]/tbody/div[2]/div 改成 /html/body/div[1]/div[2]/div 就好了
xpath并不是固定的,尽量少用xpath
6.类名有问题
类名并不是唯一的,使用类名定位可能定位到别的元素去了
bro.find_element_by_class_name('icon search2')
类名中间有空格,这里其实是由两个类名(class)组成的,而在find_element_by_class_name()方法中只能选择一个类名。所以把只能选择其中一个
bro.find_element_by_class_name('icon')
或者
bro.find_element_by_class_name('search2')
如果这两个className中有一个是可以唯一确定这个元素,可以选择其中一个使用。
如果不能唯一确定,就先findElements,然后get(i);
7.动态ID
通过ID寻找不到元素,有可能是ID是动态的,每次打开页面,元素的ID都不一样,
这时可以通过别的寻找方法
8.点击失败
找到元素后,click没有作用,可以试试用action里的
鼠标操作点击
例:
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
el = driver.find_element(By.ID,ID) # 找到元素
ActionChains(driver).move_to_element(el).click().perform() #鼠标悬停
ActionChains(driver).click_and_hold(el).perform()#左击
ActionChains(driver).context_click(el).perform()#右击
ActionChains(driver).double_click(el).perform()#双击
JS操作
from selenium import webdriver
el = driver.find_element(By.ID,ID) # 找到元素
driver.execute_script("arguments[0].click();", el)
键盘操作
from selenium.webdriver.common.keys import Keys
#在使用键盘按键方法前需要先导入keys 类包。
send_keys(Keys.BACK_SPACE) 删除键(BackSpace)
send_keys(Keys.SPACE) 空格键(Space)
send_keys(Keys.TAB) 制表键(Tab)
send_keys(Keys.ESCAPE) 回退键(Esc)
send_keys(Keys.ENTER) 回车键(Enter)
send_keys(Keys.CONTROL,'a') 全选(Ctrl+A)
send_keys(Keys.CONTROL,'c') 复制(Ctrl+C)
send_keys(Keys.CONTROL,'x') 剪切(Ctrl+X)
send_keys(Keys.CONTROL,'v') 粘贴(Ctrl+V)
send_keys(Keys.F1) 键盘F1
……
send_keys(Keys.F12) 键盘F12
9.
元素在页面下方,需要滚动页面才能点到
bro.execute_script('window.scrollBy(0,250)') # 向下滚动
10.
获取元素进行点击等操作时,最好获取input等元素,有的元素是不可点击的,如span
11.隐藏元素
点击图标的时候隐藏的元素才会显现,等你再次点击其他地方的时候就会再次隐藏掉
解决方法: 鼠标操作
# 定位图标
fox.find_element_by_class_name('basic-login-img').click()
# 实例化鼠标操作
action = ActionChains(fox)
# 定位到元素
ele1 = fox.find_element_by_class_name('margin')
# 鼠标点击
action.click(ele1)
上面的方法都不行的话切换为手机版的网页试试。
点击这个,再Ctrl+R刷新
案例:
用edge浏览器爬取QQ邮件并到百度翻译进行翻译
from time import sleep
from msedge.selenium_tools import EdgeOptions
from msedge.selenium_tools import Edge
import csv
#规避检测
edge_options = EdgeOptions()
edge_options.use_chromium = True
edge_options.add_argument('--disable-blink-features=AutomationControlled')
bro = Edge(executable_path='msedgedriver.exe',options=edge_options)#创建浏览器对象
bro.maximize_window()#最大化浏览器
bro.get('https://mail.qq.com/') #网站登录页面
bro.implicitly_wait(1)#隐式等待1秒
#---------------点击头像登录---------
sleep(1)
bro.switch_to.frame('login_frame')#切换作用域
bro.find_element_by_id('img_out_').click()
sleep(5)
bro.find_element_by_id("folder_1").click()#找到收件箱并点击
sleep(1)
bro.switch_to.frame("mainFrame") # 切换作用域
mu=bro.find_element_by_xpath('//*[@id="div_showbefore"]/table[8]')#lable标签元素
sleep(1)
out_list=[]
sendInfo = mu.find_elements_by_css_selector("td .tf span")[0]#找到发件人和发件人邮箱的父节点
#发件人
source = sendInfo.text
#发件人Email
sendmail = sendInfo.get_attribute("e")#获取标签的属性值 get_attribute也可以获取文本
#邮件标题
title = mu.find_element_by_css_selector(".gt u").text
#邮件内容
data = mu.find_element_by_css_selector(".gt b").text
#收件日期
dt = mu.find_element_by_css_selector(".dt div").text
out_list.append([source,sendmail,title,data,dt])
with open('./qq.csv', "a+", newline='', encoding='GBK') as f:
writer = csv.writer(f)
first = ['发件人', '发件人邮箱', '标题','内容', '时间']
writer.writerow(first )
writer.writerows(out_list)
print("爬取结束。")
#-----------------百度翻译-----------------
bro.get('https://fanyi.baidu.com/')
bro.implicitly_wait(1)#隐式等待1秒
bro.find_element_by_class_name('app-guide-close').click()#
sleep(2)
bro.find_element_by_id('baidu_translate_input').send_keys(data)#输入翻译内容
#bro.find_element_by_id('translate-button').click()
sleep(2)
txt=bro.find_element_by_css_selector('p.ordinary-output span').text
print("翻译结果为:")
print(txt)