[natas] 02>03 & web crawling / robots.txt 사용법
이전 단계에서 얻었던 비밀번호를 입력하자.
이전과 마찬가지로 이 페이지에 아무것도 없다고 뜬다.
이전 단계와 달리 추가된 것은 아래에 <!-- --> 주석 처리이다.
일단 script와 link 태그에 있는 소스코드에 뭐라도 있을 거 같아서 들어가봤는데 너무 많아서 포기..
그래서 No more information leaks!! Not even Google will find it this time 내용을 구글에 쳐보니
hackmethod라는 사이트가 있었고 해킹 방법을 알려줬다.
https://hackmethod.com/overthewire-natas-3/?v=06fa567b72d7 여기에 있는 내용을 가져오고 해석을 하면서 이해해보자.
“Site owners have many choices about how Google crawls and indexes their sites through Webmaster Tools and a file called “robots.txt”. With the robots.txt file, site owners can choose not to be crawled by Googlebot, or they can provide more specific instructions about how to process pages on their sites. ”
- 우리말로 바꿔보면,
웹 마스터 툴과 robots.txt라는 파일을 통해 구글이 crawl과 index를 어떻게 하는지 사이트 오너는 많은 선택을 가지고 있다. 이 robots.txt 파일로 인해서 사이트 오너는 googlebot으로 인해 크롤링(추출)되는것으로부터 막을 수 있고, 그들의 사이트에서 페이지 process(처리하다)하는 부분에서 보다 구체적인 지침을 제공할 수 있다고 한다.
=> 이 부분에서 not even google will find it this time의 이유라고 짐작된다.
Lets dig a little deeper. The /robots.txt is a de-facto standard, which means it is not published by any governing body but it is universally accepted. To learn more about this file we can go to http://www.robotstxt.org/robotstxt.html as they describe how to use this file. They suggest putting this file in the top level of the directory, so lets go look there.
- 대충 이해해보면, /robots.txt는 사실상의 표준이며 어떤 기관에서도 게시하지 않지만 보편적으로 허용된다고 한다. 여기서 이 파일을 디렉토리의 최상위 레벨에 두는 것을 제안한다고 한다.
=> /robots.txt에 들어가보자
Looks like we found our “hidden” directory. Inside the directory, we find exactly what we were looking for. Easy peasy. *WARNING* keep in mind that this file will stop honest crawlers (like google) from indexing your website. It will not stop hackers, and they make look for this to crawl specifically.
+) <크롤링 이란?!>
https://www.fun-coding.org/crawl_basic2.html
웹크롤링 기본: 크롤링(crawling) 이해 및 기본 - 잔재미코딩
연습문제 다음 사이트에서 링크가 되어 있는 모든 제목을 가져와서 출력합니다. http://media.daum.net/digital/ - 참고코드: git 저장소에서 02_examples/crawling_seeko_title.py 를 참고 - 프로그래밍은 스스로 작
www.fun-coding.org
https://www.cloudflare.com/ko-kr/learning/bots/what-is-a-web-crawler/
웹 크롤러란 무엇입니까? | 웹 스파이더의 작동 방식
웹 크롤러 봇(즉, 웹 스파이더 봇)은 검색 결과의 웹 콘텐츠를 인덱싱합니다. Google 크롤러가 어떻게 작동하고 봇 관리가 이 봇을 어떻게 처리해야 하는지 알아보세요.
www.cloudflare.com
: 웹 상에 존재하는 contents를 수집하는 작업
1) HTML 페이지를 가져와서 HTML/CSS 등을 파싱하고 필요한 데이터만 추출하는 기법
2) Open API(Rest API)를 제공하는 서브스에 Open API를 호출해 받은 데이터만 추출하는 기법
+) API는 무엇인가...
실습으로 돌아와서 url에 /robots.txt를 추가하면
이런것이 뜸을 알 수 있다.
그래서 이 뒤에 /s3crtet/를 붙여보니까
...??? 이래서 다시 돌아가면서 위에 있는 robots.txt에 대해 제대로 살펴봤다.
http://www.robotstxt.org/robotstxt.html 여기에 들어가면 robots.txt를 사용하는 방법을 얻을 수 있다.
robots.txt 파일을 이용하여 웹 로봇에 사이트에 대한 지침을 제공한다. 이것을 로봇 배제 프로토콜이라고 한다.
위위 사진에서 /robots.txt를 추가한 이후를 보면
위의 형태와 같이 나온다.
user-agent는 *이 섹션이 모든 로봇에 적용됨을 의미한다.
Disallow: / 는 로봇이 사이트의 어떤 페이지도 방문해서는 안된다고 알려준다.
해당 사이트는 공개적이며, 엑세스 제어를 위한 것이 아니고 입장금지 표시이므로 해킹을 하는 우리는 들어가야한다..!!
그래서 /robots.txt 뒤에 disallow 내용을 붙이지 말고 해당 내용만 넣어야 한다는 것.
그래서 들어오면,
usets.txt에 들어가면 비번이 나온다!!!
natas4:Z9tkRkWmpt9Qr7XrR5jWRkgOU901swEZ