웹크롤링(web crawling) 클라우드 플레어 우회하기

웹크롤링(web crawling) 클라우드 플레어 우회하기

웹 크롤링을 할 때 클라우드 플레어를 사용하는 사이트의 경우 봇 확인을 하게되는데요. web crawling 방법은 여러가지가 있는데요. 이 경우에는 정상적으로 크롤링이 되지 않습니다. 그래서 오늘은 봇 확인을 우회해서 크롤링하는 방법을 알아보겠습니다. 클라우드플레어 우회해서 크롤링하기 먼저 크롬웹사이트를 디버그로 열 필요가 있습니다. 주요 사이트는 Cloudflare 같은 보안 솔루션을 사용하는 경우가 많아서 봇으로 인식되면 크롤링이 안되는데요. 그래서 셀레니움에서 … Read more

파이썬 판다스 메모리 에러 해결하기

파이썬 판다스 메모리 에러 해결하기

파이썬 사용중 판다스에서 엑셀파일 합치기를 하다보면 메모리 에러가 발생하는 경우가 있는데요. 판다스 데이터 용량 확인하기 먼저 판다스에서 info에 memory_usage 명령어를 사용해보면 데이터 용량을 확인할 수 있는데요. 이때 파이썬 판다스의 데이터 종류가 있습니다. 바로 아래와 같은 데이터 형태가 있는데요. 판다스에서 파일을 옵션없이 불러오면 일반적으로 object로 불러옵니다. 하지만 이 object의 경우 아무 문자열이나 다 가능하기 때문에 데이터를 … Read more