Job Description
JD in Japanese follows. 英文の後に和文JDをご覧いただけます。
Software Engineer (Site reliability) - Mercari
- Employment Status: Full-time
- Work Hours: Full Flextime (no core time)
- Office: Roppongi
For more details, see the of Our Positions section on our Careers site.
About Mercari
Circulate all forms of value to unleash the potential in all people
"What can I do to help society thrive with the finite resources we have?" The Mercari marketplace app was born in 2013 out of this thought by our founder Shintaro Yamada as he traveled the world. We believe that by circulating all forms of value, not just physical things and money, we can create opportunities for anyone to realize their dreams and contribute to society and the people around them. Mercari aims to use technology to connect people all over the world and create a world where anyone can unleash their potential. For more information about Mercari Group’s mission, see Mercari’s Culture Doc
Organization/Team Mission
Mercari Engineering Principles
Mercari Engineering Principles are a shared understanding that serves as the foundation of engineering beliefs and behavior at Mercari. The Engineering Principles are designed to complement the organizational identity (Mercari’s mission, values, and culture) from an engineering viewpoint.
These principles ultimately help us achieve Mercari’s mission by defining the ideal state we seek to realize in the long term.
- Passion For The Product
- Grow Together
- Solve Through Mechanisms
- Collaborate Openly
For more details, please see the following link:
In the SRE Team drives the reliability, scalability, and operational excellence of Mercari Group’s production services, including Mercari, Merpay, and Mercoin. We make customer experience observable through CUJ SLOs and turn those insights into meaningful service improvements. Working across Google Cloud and Kubernetes, we strengthen incident response, reduce toil, and build resilient systems. As AI accelerates development, we are advancing guardrails, autonomous operations, and cross-team collaboration to prevent incidents, recover faster, and improve products end to end.
See here for more information about our mission and values.
Work Responsibilities
- Operate hundreds of production microservices on Google Cloud (Kubernetes, managed services) under SLO targets, including on-support rotation for urgent issues.
- Lead end-to-end reliability epics independently — from design through rollout, monitoring, and post-launch iteration.
- Define and operate SLOs and SLIs for critical user journeys, using error budgets to prioritize work with product teams.
- Lead incident response, advance the team's postmortem culture, and drive follow-ups that prevent recurrence.
- Build autonomous AI agents for detection, triage, and recovery (log analysis, alert summarization, RCA, remediation) with clear safety.
- Write Infrastructure as Code with Terraform and build automation to reduce toil and scale operations across a large microservices environment.
- Build and maintain monitoring, alerting, and tracing on Datadog tied to user impact, with short detection-to-mitigation time.
- Perform reliability and performance tuning on production workloads (capacity planning, autoscaling, load shedding, dependency hardening).
- Partner with product and platform teams on production readiness reviews, capacity planning, and new infrastructure adoption.
- Strengthen reliability governance through engineering (risk assessment, audit response, compliance-as-code).
Unique Challenges
- Driving reliability across a wide business portfolio (Marketplace and Fintech) at Mercari scale, through a CUJ SLO that grounds product decisions and operational policy in user impact.
- Working at the frontline of AI-driven development velocity and the operational strengthening it demands — you will help shape the SRE culture that emerges as engineers and autonomous agents share the work.
- Partnering with engineering teams that own reliability and resilience and act on data, so reliability improvements compound across the company.
- Balancing ~50% reactive work (alerts, on-support tickets, operations, incident response) with project delivery.
- Working in a bilingual environment: you use both Japanese and English every day, within the team and across teams.
Qualifications
- Required Experience/Skills
- Production SRE experience with service ownership, availability targets, toil reduction, and operational readiness, including using SLOs and SLIs to prioritize reliability work alongside development teams.
- Experience operating production services at scale (>10K QPS, or owning multiple production microservices) under SLOs.
- Production experience with Google Cloud (compute, networking, managed services) and Kubernetes-based workloads.
- Infrastructure-as-Code experience (Terraform) and scripting in Go, Python, or shell.
- Hands-on experience with monitoring and observability (Datadog or equivalent), including alert design and reducing alert fatigue.
- Experience owning incident response, postmortems, and on-call or on-support rotations.
- Ability to lead epics end-to-end without teammate support.
- Willingness to learn and apply AI to operational workflows beyond your core SRE expertise.
- Preferred Experience/Skills
- Experience designing or running platform-wide SLO programs across multiple services or business units.
- Experience applying AI to operational workflows (log analysis, alert summarization, runbook assistance, RCA, remediation) with evaluation of accuracy and safety.
- Experience operating high-scale Kubernetes platforms, or distributed systems internals (scheduling, consistency, failure recovery).
- Experience leading reliability or platform initiatives that span multiple teams.
- Experience strengthening reliability governance through engineering (compliance-as-code, automated audit evidence, risk assessment).
- Language
- Japanese: Independent (CEFR – C1)
- OR English: Independent (CEFR – C1)
For details about CEFR, see here
Learn More About Mercari Group
Recruiting at Mercari
At Mercari Group, we value empathizing with and embodying the mission and values of the Group and each company. To promote the creation of an organization that maximizes the total amount of value exhibited by all members, we would like to understand the experience and skills of each candidate as accurately as possible.
Recruiting cycle at Mercari Group
- Application screening
- Skill assessment: For engineering positions, you will be asked to complete a skill assessment on HackerRank or GitHub. For non-engineering positions, you may be asked to complete an assessment depending on the position. (The timing of the assessment may coincide with the interview process.)
- Interview: The number of interviews may vary depending on the position.
- Reference check: We will ask for online references around the timing of the final interview.
- Offer: Offers will be determined carefully in consideration of the final interview and the reference check.
Learn more about our recruiting process here
Equal Opportunity Hiring
Here at Mercari, we work to realize a world in which no one’s potential is limited by their background and everyone has the opportunity to freely create value. We also firmly believe that a mindset of Inclusion & Diversity is essential for us to achieve our mission.
This, of course, extends to our hiring practices as well. Mercari is committed to eliminating discrimination based on age, gender, sexual orientation, race, religion, physical disability, and other such factors so that anyone who shares our mission and values can join us, regardless of their background. For more details, please read our I&D statement
Please read and acknowledge our Privacy Policy prior to submitting your application.
Software Engineer (Site reliability) - Mercari
- 雇用形態: 正社員
- 働き方: フレックスタイム制(コアタイムなし・フレキシブルタイムなし)
- 勤務地: 六本木
詳細はキャリアサイトの 募集要項よりご確認ください
メルカリグループについて
あらゆる価値を循環させ、あらゆる人の可能性を広げる
「地球資源が限られているなか、より豊かな社会をつくるために何ができるか」。2013年、創業者の山田進太郎が世界一周の旅で抱いた課題意識から、フリマアプリ「メルカリ」は生まれました。私たちは、物理的なモノやお金に限らずあらゆる価値を循環させることで、誰もがやりたいことを実現し、人や社会に貢献するための選択肢を増やすことができると信じています。
テクノロジーの力で世界中の人々をつなぎ、あらゆる人の可能性が発揮される世界を実現していきます。メルカリグループの目指すべき方針については Mercari Culture Doc をご覧ください。
組織・チームのミッション
- Mercari Engineering Principles
Mercari Engineering Principles は、メルカリのエンジニアリング組織における信念や行動の基盤となる共通認識を明文化したもので、メルカリのメンバー全員が共有するMission、Value、Cultureをエンジニアリングの視点から補完するものとなります。これらのPrinciplesは、私たちが長期的に実現しようとする理想的な姿を定義することで、最終的にメルカリのミッションを達成するために活用していきます。
- Passion For The Product
- Grow Together
- Solve Through Mechanisms
- Collaborate Openly
詳細については エンジニアリングカルチャー をご覧ください
SREチームは、Mercari、Merpay、Mercoinを含むMercari Groupの本番サービスにおいて、信頼性、スケーラビリティ、運用品質の向上をリードするチームです。システムやサービス単位だけでなく、お客さまの体験を起点とした信頼性を重視し、CUJ SLOを活用して重要な体験を観測可能にしながら、継続的なサービス改善につなげています。Google CloudやKubernetesをはじめとするクラウドネイティブな基盤上で運用される大規模なシステムに向き合い、インシデント対応の高度化、トイル削減、レジリエントなシステム設計・運用を推進しています。さらに、AIによって開発スピードが加速する中で、ガードレールの整備、AI Agentを活用した調査・対応プロセスの高度化、チーム横断のコラボレーションを通じて、インシデントの未然防止と迅速な復旧を支えています。
- メルカリのミッション・バリューについての詳細は こちらをご覧ください
業務内容
- SLOに基づき、Google Cloud上で稼働する数百規模の本番マイクロサービスを運用し、緊急時のオンコール対応や運用サポートも担う。
- 信頼性向上に向けた取り組みを、設計、監視、リリース、リリース後の改善まで一貫してリードする。
- 重要なユーザージャーニーに対するSLI/SLOを定義・運用し、エラーバジェットを活用してプロダクトチームとの優先順位付けを行う。
- インシデント対応をリードし、ポストモーテム文化を発展させ、再発防止につながるフォローアップを推進する。
- ログ分析、アラート要約、根本原因分析、復旧対応をなどを対象に、明確な安全性を担保したAI Agentを構築する。
- TerraformによるInfrastructure as Codeを実践し、大規模なマイクロサービス環境における運用のスケーラビリティ向上やトイル削減のための自動化を実施する。
- お客さまの影響に紐づいた監視、アラート、オブザーバビリティを構築・維持し、検知から緩和までの時間を短縮する。
- 本番環境で稼働するサービスに対して、利用増加や障害発生を見据えたリソース設計、オートスケール、依存先サービスへのレジリエンス強化などを通じて、信頼性と性能を継続的に改善する。
- プロダクトチームおよびプラットフォームチームと連携し、新機能や新規サービスを安全に本番投入するための準備、運用設計、新しいプラットフォーム整備を推進する。
- リスク評価、監査対応、運用ルールのコード化・自動検証を通じて、安全で信頼性の高い本番環境を継続的に維持・改善する。
ユニークなチャレンジ
- MarketplaceとFintechを含むMercari Groupの幅広い事業領域において、CUJ SLOを通じてお客さまへの影響を可視化し、プロダクト判断や運用方針に反映しながら、信頼性向上に取り組みます。
- AIによって開発スピードが加速する中で、エンジニアとAI Agentが協働する新しい運用のあり方をつくり、これからのSRE文化を形づくります。
- 信頼性とレジリエンスの重要性が組織全体で理解されている環境で、プロダクトチームやプラットフォームチームと連携し、データに基づく改善を継続的に進められます。
- 運用サポート、問い合わせ対応、インシデント対応などの日々の運用業務と、信頼性向上に向けた中長期のプロジェクト推進の両方に取り組みます。
- チーム内外で日本語と英語を日常的に使う環境で働きます。
応募要件
- 求める経験・スキル
- サービスの信頼性に責任を持ち、可用性目標の達成、トイル削減、本番稼働に向けた準備を推進した経験。SLI/SLOを活用し、開発チームと連携しながら信頼性向上の優先順位を判断した経験を含む。
- SLOに基づき、大規模なサービス(10K QPS以上、または複数の本番マイクロサービス)を運用した経験。
- Google CloudなどのクラウドサービスおよびKubernetes上で稼働するワークロードの本番運用経験。
- Infrastructure as Codeの実践やSRE業務向けツールの開発を通じて、運用の効率化・自動化を推進した経験。
- Datadogまたは同等のツールを用いた監視・オブザーバビリティ強化の実務経験。アラート設計や疲労の軽減に取り組んだ経験を含む。
- インシデント対応、ポストモーテム、オンコールまたは運用サポートの当番制を担った経験。
- 信頼性向上に向けた取り組みを、設計から実行、改善まで自律的にリードできる。
- SREの専門領域に閉じず、AIを運用業務に学習・適用していく意欲。
- 歓迎する経験・スキル
- 複数のサービスまたは事業領域をまたぐ、全社的・横断的なSLOプログラムの設計または運用経験。
- ログ分析、アラート要約、根本原因分析、復旧対応などの運用業務にAIを活用した経験、およびその精度や安全性を評価した経験。
- 大規模なKubernetes基盤の運用経験、または分散システムの内部動作に関する知識・経験。
- 複数チームにまたがる信頼性向上またはプラットフォーム改善の取り組みをリードした経験。
- リスク評価、監査証跡の自動収集、インフラ設定や運用ルールのコード化・自動検証を通じて、本番環境の安全性と信頼性を高めた経験。
- 語学力
- 日本語:Independent (CEFR – C1)
- OR 英語:Independent (CEFR – C1)
※CEFRの詳細については、 こちらをご覧ください
メルカリグループについて知る
選考について
メルカリグループではメルカリグループおよび各カンパニーのミッションとバリューへの共感・体現を大切にしています。メンバーが発揮する価値の総量が最大化されるような組織づくりを推進するために、候補者のみなさんの経験やスキルをより正しく理解したいと考えています。
選考の流れ
- 書類選考
- 技術課題:エンジニアポジションではHackerRankまたはGithubでの技術課題を、エンジニア以外のポジションでは採用ポジションによります(面接タイミングと前後することがあります)
- 面接:ポジションにより、複数回の面接をお願いします
- リファレンス:オンライン回答形式のもので、最終選考の前後でお願いします
- オファー:最終選考とリファレンスの内容より決定されます
※詳しくは こちらのページをご覧ください
選考における機会の平等
メルカリでは、バックグラウンドによって個人の可能性が決めつけられることなく、自由に価値を生みだす機会を手にできる社会の実現を目指しています。そしてメルカリがミッションを実現するために「Inclusion & Diversity」という考え方は不可欠な存在だと考えています。
採用活動においても、メルカリのミッション・バリューに共感する、様々なバックグラウンドの方にジョインしていただけるよう、年齢、性別、性的指向、人種、宗教、身体能力、その他記号に基づくあらゆる差別をなくすことを約束します。
詳しくは、 I&D statementをご覧ください。
なお、ご応募の際には プライバシーポリシーをご確認ください。