SquidEngineer | 유연한 사고의 엔지니어

반명.jpg

Contact.

Email. [email protected]

Phone. 010-7360-8122

Channel.

GitHub. https://github.com/SteveArseneLee

Blog. https://squidengineer.tistory.com/

🏃‍♂️ Career & Experience

Okestro (2023.09.11 ~ ) as a Data Engineer
- (Currently) IoT Data Collection Pipeline 설계 및 구축
- LLM 데이터 파이프라인 구축
- ML팀에서 MSA 환경에서의 Monitoring Data Pipeline 구축
- 클라우드 및 인프라 담당
SSAFY 10th (2023.07.05 ~ 2023.08.31)

📖 Educations

경희대학교 컴퓨터공학과(2021.03~2023.08)
단국대학교 소프트웨어학과(2016.03~2021.02)

👨🏻‍💻 Project

IoT Data Collection Pipeline for Digital Twin(2024.06 ~ )
- Digital Twin을 위한 데이터 중 IoT 데이터의 수집 파이프라인 설계 및 구축
- Spring Boot, ActiveMQ, Kafka, Camel, Flink, Nifi
Data Infra, DevOps Engineering for LLM Service(2024.04 ~ 2024.06)
- K8s 클러스터를 구축하고 기존의 on-premise에 있던 monolithic의 LLM 아키텍쳐 상의 Kafka, Jenkins를 k8s에 구축 및 운영
- K8s with kubeadm
- prometheus, loki for system monitoring
- kafka, jenkins, mongodb, harbor
- 회고 : 그동안은 연구 목적으로 설계하여 테스트용이었지만, 처음으로 운영계에 적용해야하여 고가용성, 안정성 등에 대한 문제에 직면했습니다. 도메인 특성상 속도와 정확성(순서 보장) 모두를 확실하게 잡아야해서 여러 테스트를 거쳤습니다.
Istio for Distributed Tracing Data Pipeline(2024.02 ~ 2024.03)
- Istio를 service mesh용도가 아닌 service의 application단에서 zipkin을 선언해주는 것을 대체하기 위해 사용
- K8s, Istio, Kiali, Prometheus, Jaeger
- 회고 : envoy proxy를 통해 필요한 trace data를 가져오고 싶었지만, istio가 tcp로 명시된 http데이터를 인식하지 못하여 더 상세한 설정이 필요로 함을 깨달았습니다. 이를 위해 protocol selection, lua script까지 시도해보았으나 온전한 데이터를 얻지 못한 게 아쉬웠습니다.
Metric Data Pipeline for MSA(2024.01 ~ 2024.01)
- MSA 환경 구축 및 metric data 수집 및 영구 저장을 위한 파이프라인 설계 및 구축
- K8s, Prometheus, Grafana
- 회고 : 기존에 영구 저장이 안되던 문제점을 PV 설정을 통해 수정하였으나 수집 주기나 metric_name등 설정들을 원하는 만큼 커스터마이징을 못한 점이 아쉬웠습니다.
Log Pipeline for MSA(2023.10 ~ 2023.11)
- MSA환경을 위한 로그 파이프라인 설계 및 구축
- K8s, Promtail, Loki, Grafana
- 회고 : 모니터링 스택을 처음 접해봐서 아키텍쳐부터 다소 난해했으나 2주간 helm을 통해 구축 및 삭제를 반복하며 Grafana에서 Loki로 쌓은 데이터를 볼 수 있도록 한 점은 만족스러웠습니다. 하지만, 권한과 api 이슈로 인해 데이터 추출을 자동화하지 못한 점이 아쉬웠습니다.
통합 투자 서비스(2022.09 ~ 2022.12)
- 아파트, 주식, 코인 등 다양한 투자 항목을 한 페이지에서 최대한 다양하게 볼 수 있게함
- 각 투자 항목별로 파이프라인 구축
- Data Federation을 주제로 논문 및 프로젝트
- Kafka, Spark, Airflow, AWS, GCP, Snowflake
- 회고 : 감당하기 힘들 정도의 빅데이터를 처음 다뤄봐서 데이터의 크기를 정의하기가 힘들었습니다. 따라서 kafka에서도 여러 가지 사이즈로 테스트해봤고, 데이터가 온전히 전달되는 수준에서 마무리했습니다.
초기 창업가들을 위한 상권 분석(2022.03 ~ 2022.06)
- 기존의 상권을 분석해 초기 창업가들에게 상권 추천
- Kafka 실시간 데이터 처리
- Kafka, EMR, S3, Flask
- 회고 : Kafka를 제대로 숙지하지 못해 kafka connect나 kafka streams를 사용하지 못했고, spark를 통해 유의미한 처리를 하지 못한 점이 아쉬웠습니다.