Selenium을 이용한 파파고 번역
·
python
파파고 번역 API의 하루 호출 최대량이 10,000자라서 API를 이용한 번역은 어려울 것 같아서 Selenium을 이용해서 진행했다. 텍스트 파일을 불러올 때 보통은 readlines()를 이용해서 불러오는데 이번에는 그냥 read()를 통해서 불러왔다. with open(txt_files[0], 'r', encoding = 'utf-8') as file: b = file.read() 한 번에 번역할 수 있는 글자 수가 5,000자라서 나는 4,000자를 기준으로 돌렸다. 텍스트를 길이를 기준으로 자르는 함수를 만들었다. def split_len(seq, length): return [seq[i : i+length] for i in range(0, len(seq), length)] 보통은 Seleni..
파파고 언어감지 API를 이용해서 중국어만 추출하기
·
python
가벼운 마음으로 시작한 작업인데 해야할 일이 산더미처럼 늘었다. 중국어 알못이라 알아들을 수 있는 영어, 한국어 번역본이 필요할 것 같아서 그 작업을 시작하기에 앞서, 우선 텍스트 파일을 가지고 정제하는 작업을 먼저 시작했다. - 중국어 아닌 것 제외, 이모지 제외, 중복 제외 작업을 위해서 한 줄씩 text파일을 불러왔다. with open(file_path, 'r', encoding = 'utf-16') as file: b = file.readlines() 우선 중복인 문장들부터 제외해보기로 했다. 리스트의 담긴 값들의 중복 제거를 위해서 for문을 돌려준다. new_list = [] for v in b: if v not in new_list: new_list.append(v) 중복을 제거한 이후, ..
弹幕(danmu/danmaku) 자막 스크래핑
·
python
번역된 책을 펴놓고 듣는다고 해도, 대본/자막이 있는 편이 좋을 것 같아서 시작한 작업인데 진짜 힘들었다. 중국은 弹幕 자막이라고 해서 영상의 각 시점에 맞는 댓글을 작성하면 화면에 저렇게 뜬다. 저런 탄막 자막 형식은 bilibili라는 중국 영상 사이트가 가장 유명한 것 같았다. 해당 동영상 사이트에서는 api 정보를 제공을 해서 탄막 자막에 대한 정보를 가져오는 것 같았지만, 내가 필요로 하는 사이트는 마오얼FM이었으므로 그 API는 사용할 수 없었다. 우선 저 자막은 오른쪽 소스 보기를 보면 알 수 있지만 매 시점마다 새로 불러와지는 부분이라 저걸 스크래핑 할 수는 없었다. 그래도 저 자막 정보가 담긴 것들이 있을 것 같아서 검사창을 정말 샅샅이 다 뒤졌다. 다행히 Network에 해당 弹幕에 대..
chrome elements html로 저장하기
·
python/personal
len()으로 길이 확인 안하고 진행했더니 시즌 3의 후반부 몇 개가 빠진 상태로 저장이 끝났다. 완료 됐다고 생각해서 실행하던 파일도 삭제를 했는데, 다시 해야해서 다시 selenium 사용하는거 보다는 그냥 한 페이지를 html로 저장해서 진행해보기로 했다. F12를 눌러서 보이는 개발자모드에서의 Elements의 html 파일을 저장해야 하는데 처음 저장해보는거라서 조금 헤맸다. mhtml을 이용해서 해봤는데, 중국어가 제대로 출력이 되지 않는 문제점이 발생해서 html 그대로 작업하는 방법을 찾았다. 페이지 소스보기로 보이는 화면이랑은 달라서 그냥 저장으로는 내가 원하는 정보를 추출할 수 없다. html이 시작하는 줄에서 오른쪽 마우스를 누르고 copy outerHTML을 한 다음에 메모장을 켜서..
확장자 없는 파일 뜯어보고, 그 안에 담긴 정보 이용💾
·
python/personal
제목을 뭘로 해야할지 모르겠다.... 마도조사 드씨를 뒤늦게 알게돼서 부랴부랴 마오얼FM 가입하고 결제를 했다. 예전에는 안드로이드 폰을 사용해서 다운을 받고 파일 디렉토리에 있는 임시 파일의 확장자를 .mp3로만 바꾸면 재생이 된다고 해서 다들 그렇게 소장을 하고 있는 것 같았다. 다만 내가 너무 늦게 알았는지 지금은 단순히 확장자명을 바꾸는 걸로는 안돼서, 혹시 이 파일을 가지고 온전한 파일을 만들 수 있지 않을까 싶어서 파일을 뜯어봤다! 파일의 확장자가 아예 없어서 이게 어떤 파일인지 짐작이 안됐다. 디렉토리명이 sound_blob이라서 blob to mp3, blot to audio 등등 다양한 검색으로 검색을 해봤지만, 방법을 찾지 못했다ㅠ 그러다가 파일을 notepad로 열어보니 m4a 정보가..
BeautifulSoup을 이용한 mp4 주소 추출/저장, mp3 변환
·
python/personal
KBS 라디오 극장에서 듣고 싶은 라디오 드라마가 있어서 사이트를 둘러보니 python을 이용해 파일을 저장할 수 있을 것 같았다. 그래서 사이트에서 MP4 주소를 추출하고 저장한 후, MP3로 변환하는 작업을 해보려고 한다. from selenium import webdriver import time import requests from bs4 import BeautifulSoup from urllib.request import urlopen driver = webdriver.Chrome("./chromedriver.exe") webpage = "주소" driver.get(webpage) # 해당 페이지의 html 소스를 가지고 와서 보기로 함 req = driver.page_source soup = ..
_xxxx
'python' 카테고리의 글 목록