티스토리 뷰
크롤링을 하다보면 (scrape이 더 맞는 표현이더군) 텍스트 출력(csv 포함)만으로 부족한 경우가 있다.
긴 문장이 하나의 필드로 들어가야 하는 경우가 종종 있어서 엑셀로 저장하는 것이 훨씬 유리하다.
아니, csv로 받아서는 아예 답이 안나온다.
엑셀로 저장하기 위해 panda library를 사용한다.
기본 사용법은 우선 여기를 참조(https://korbillgates.tistory.com/148)
여려 페이지의 데이터를 스크래이핑 할 때는 페이지마다 저장을 하는게 좋다.
안그랬다간 시간만 잡아 먹고 남은게 하나도 없게 되는 일이...
중간중간 저장을 위해서는 다음과 같은 방법이 필요하다.
https://stackoverflow.com/questions/47737220/append-dataframe-to-excel-with-pandas/47738103
'해피 코딩' 카테고리의 다른 글
파이썬 알고리즘 문제: Anagram (0) | 2021.01.15 |
---|---|
[번역] 파이썬으로 테트리스 만들기 (0) | 2020.07.12 |
Yocto project 소개 (1) | 2019.12.27 |
Docker registry 처음 사용하기 (0) | 2019.12.02 |
Docker 처음 사용하기 (0) | 2019.12.02 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 중년개발자이야기
- til
- 일기
- 개발일지
- Journal
- 경영
- yocto
- 계획
- react-native
- diary
- 코딩인터뷰
- React
- 퀀트
- AWS
- wp
- firebase
- 바질키우기
- 행안부
- 개발자
- 중년
- 저널
- pyTorch
- 개발노트
- 자동거래
- Poky
- node_modules
- LearnByArticle
- 바질
- mba
- 알고리즘문제
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
글 보관함