👨🏻‍🏫IT 활동

    [NLP] Day 9 - Project 1

    Project 1데이터 마련하기가장 많이 본 뉴스 카테고리별 10개씩 Text로 가져오기그리고 저장하기( file 이름을 aid는 안겹치니 )정치_0009112494.text 형태로 저장하기 In [1]:import requests headers = {'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537'} def getDownload(url, param = None, retries = 3): resp = None try: resp = requests.get(url, params = param, headers = heade..

    [NLP] Day 8 - DHTML

    DHTML http://example.webscraping.com/places/default/search이제는 위가 아닌 아래의 방법을 따를 것 이다.form 태그를 찾아야하는데, 여기는 액션(method)이 없음In [1]:import requests headers = {'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537'} def getDownload(url, param = None, retries = 3): resp = None try: resp = requests.get(url, params = param, hea..

    [NLP] Day 7 - Scraping

    Scraping교안 : https://lms.koipa.or.kr/static/uploads/lectures/Scraping.pdfScraping : 내가 원하는 특정 정보만을 가지고 올 수 있다.크롤링은 웹을 다뤄서 규모가 크지만, 스크래핑은 내가 원하는 곳에서 원하는 양만큼 어떤 규모든 얻어올 수 있음.exercise : https://validator.w3.org/unicorn/?ucn_lang=koIn [1]:import requests headers = {'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537'} d..

    [NLP] Day 6 - CSS SELECTOR

    SelectorIn [51]:headers = {'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537'} def getDownload(url, param = None, retries = 3): resp = None try: resp = requests.get(url, params = param, headers = headers) resp.raise_for_status() except requests.exceptions.HTTPError as e: if 500 Tag, ID(아이디), class(.클래스명) [name='as..

    [NLP] Day5 - DOM

    DOMIn [72]:# getDownload import requests headers = {'user-agent' :'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'} def getDownload(url, param = None, retries = 3): resp = None try: resp = requests.get(url, params = param, headers = headers) resp.raise_for_status() except requests.exceptions.HTTPError as e: if 500

    [NLP] Day4 - HTML2

    HTTP 이어서 ~In [22]:# get ( = Read ) 가장 일반적인 경우 사용 import requests url = 'http://httpbin.org/' resp = requests.get(url+'get',params={'key':'value','key1':'value'}) resp = requests.head(url+'get') # head만 가져오는 것 / body는 비어있어야 함. # dictionary 형태로 들어감 In [12]:# post ( = Create ) import requests url = 'http://httpbin.org/' resp = requests.post(url+'post',data={'key':'value','key1':'value'}) # paramete..