Web Scrapping
x-path
/a/b/c/d/e/f/g/...
와 같이 특정 경로를 가진 개체를 가리키는 방법이다.//*[@id="abcd"]
- // 는 모든 경로에서 찾겠다는 의미
- 는 모든 태그에 대해 찾겠다는 의미. *대신 TAG를 넣으면 ‘TAG’ 라는 이름의 태그를 가진 항목에서만 검색함
- @id=“abcd” 는 id라는 속성이 abcd 인 항목을 찾겠다는 의미
- 브라우저에서 자동으로 해줒기 때문에 보통은 걱정할 필요가 없다.
정규식
- . : 하나의 문자
- ^ : 문자열의 시작
- $ : 문자열의 끝
- * : 모든 문자
- # : 하나의 숫자
Useragent
- 특정 페이지에서는 request 헤더를 확인하여 매크로 접속을 막는 경우가 있다.
- 서버에서는 useragent 정보를 확인하여 접속하는 웹 브라우저, 기기 등의 정보를 확인할 수 있다.
참조
https://www.youtube.com/watch?v=yQ20jZwDjTE https://www.w3schools.com/python/python_regex.asp